agjaisdjfo 2015-10-23 06:46 采纳率: 37.5%
浏览 3824
已采纳

程序需要处理的数据量很大的时候该怎么做呢?

如果程序一次需要处理的数据有很多,比如上千万条宠物信息,保存在txt中有100多个G,这时候需要对每条宠物数据做逐一处理,然后对处理结果分类综合再进行二次处理。
操作的时候,所有数据都同时放到内存中不太现实,请问这种情况下一般的处理思路是什么?
想的是做一个中间文件,第一次处理的时候,处理一条数据保存一条数据。但因为二次处理需要对所有的数据综合分析,所以还是要完全读取中间文件的数据。
刚做这方面的内容,请各位前辈多多指点,十分感谢。

  • 写回答

6条回答 默认 最新

  • strgrb 2015-10-29 15:39
    关注

    如果综合分析这个过程满足结合律,或者部分满足结合律,可以考虑借鉴Hadoop中的partition过程,即:
    从初始文件读入,分析后根据数据内容写到多个文件中,将需要统计分析的数据放到同一个文件中,然后逐个文件分析

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(5条)

报告相同问题?

悬赏问题

  • ¥15 乘性高斯噪声在深度学习网络中的应用
  • ¥15 运筹学排序问题中的在线排序
  • ¥15 关于docker部署flink集成hadoop的yarn,请教个问题 flink启动yarn-session.sh连不上hadoop,这个整了好几天一直不行,求帮忙看一下怎么解决
  • ¥30 求一段fortran代码用IVF编译运行的结果
  • ¥15 深度学习根据CNN网络模型,搭建BP模型并训练MNIST数据集
  • ¥15 C++ 头文件/宏冲突问题解决
  • ¥15 用comsol模拟大气湍流通过底部加热(温度不同)的腔体
  • ¥50 安卓adb backup备份子用户应用数据失败
  • ¥20 有人能用聚类分析帮我分析一下文本内容嘛
  • ¥30 python代码,帮调试,帮帮忙吧