agjaisdjfo 2015-10-23 06:46 采纳率: 37.5%
浏览 3824
已采纳

程序需要处理的数据量很大的时候该怎么做呢?

如果程序一次需要处理的数据有很多,比如上千万条宠物信息,保存在txt中有100多个G,这时候需要对每条宠物数据做逐一处理,然后对处理结果分类综合再进行二次处理。
操作的时候,所有数据都同时放到内存中不太现实,请问这种情况下一般的处理思路是什么?
想的是做一个中间文件,第一次处理的时候,处理一条数据保存一条数据。但因为二次处理需要对所有的数据综合分析,所以还是要完全读取中间文件的数据。
刚做这方面的内容,请各位前辈多多指点,十分感谢。

  • 写回答

6条回答 默认 最新

  • strgrb 2015-10-29 15:39
    关注

    如果综合分析这个过程满足结合律,或者部分满足结合律,可以考虑借鉴Hadoop中的partition过程,即:
    从初始文件读入,分析后根据数据内容写到多个文件中,将需要统计分析的数据放到同一个文件中,然后逐个文件分析

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(5条)

报告相同问题?

悬赏问题

  • ¥15 一道python难题
  • ¥15 用matlab 设计一个不动点迭代法求解非线性方程组的代码
  • ¥15 牛顿斯科特系数表表示
  • ¥15 arduino 步进电机
  • ¥20 程序进入HardFault_Handler
  • ¥15 oracle集群安装出bug
  • ¥15 关于#python#的问题:自动化测试
  • ¥20 问题请教!vue项目关于Nginx配置nonce安全策略的问题
  • ¥15 教务系统账号被盗号如何追溯设备
  • ¥20 delta降尺度方法,未来数据怎么降尺度