了了一 2025-10-22 12:10 采纳率: 0%
浏览 5

有没有数据集,推荐数据集!!

找不到数据集啊,
数据量十万条以上,字段最少15个。
主题随便了,求一个合适的数据集

  • 写回答

3条回答 默认 最新

  • 宝码香车 优质创作者: JavaScript技术领域 2025-10-22 17:35
    关注

    让【宝码香车】来帮您解答,本回答参考DeepSeek编写,并整理提供。

    如果答案让您满意,请采纳、点赞、关注,非常感谢!
    .
    每日一句正能量,让它带给您好心情:过去的已经过去,未来的还未到来,珍惜现在就好。
    .

    根据您的需求(10万条以上数据、至少15个字段),我为您推荐几个高质量的数据集来源和具体数据集:

    🔍 推荐数据集平台

    1. Kaggle 数据集

    # 热门数据集示例
    - Google Analytics Sample (电商数据)
    - NYC Taxi Trip Data (交通数据) 
    - TMDB 5000 Movie Dataset (影视数据)
    

    2. UCI 机器学习仓库

    # 包含多个符合要求的数据集
    - Census Income Dataset (人口普查数据)
    - Credit Card Clients (金融数据)
    - Online Retail II (零售交易数据)
    

    📊 具体数据集推荐

    电子商务数据集

    Brazilian E-commerce

    • 数据量:约10万订单
    • 字段数:9个主表 + 多个关联表,总计超过20个字段
    • 包含:订单信息、客户数据、支付记录、商品信息等

    交通出行数据集

    NYC Yellow Taxi Trip Data

    -- 每月数据量超过100万条
    -- 字段包括:上下车时间地点、行程距离、费用、乘客数等15+字段
    SELECT COUNT(*) FROM yellow_taxi_trips 
    WHERE trip_date >= '2023-01-01';
    

    金融数据集

    Lending Club Loan Data

    • 数据量:超过20万条贷款记录
    • 字段数:150+个字段(可筛选使用)
    • 包含:借款人信息、贷款详情、信用记录、还款状态等

    🚀 获取方式

    通过代码直接下载

    import pandas as pd
    import kaggle
    
    
    # 下载Kaggle数据集
    # kaggle datasets download -d olistbr/brazilian-ecommerce
    
    
    # 或使用API
    df = pd.read_csv('https://raw.githubusercontent.com/datasets/nyc-taxi-trips/master/data/trips.csv')
    

    政府开放数据

    • data.gov (美国政府数据)
    • data.gov.uk (英国政府数据)
    • 中国地方政府数据开放平台

    💡 使用建议

    1. 预处理:大数据集通常需要清洗和格式转换
    2. 内存管理:使用分块读取处理大型文件
    3. 字段筛选:150+字段的数据集可先选择相关字段分析

    这些数据集都满足您的规模要求,且字段丰富,适合进行数据分析和机器学习项目。建议根据具体应用场景选择最相关的数据集。

    评论

报告相同问题?

问题事件

  • 创建了问题 10月22日