如果程序一次需要处理的数据有很多,比如上千万条宠物信息,保存在txt中有100多个G,这时候需要对每条宠物数据做逐一处理,然后对处理结果分类综合再进行二次处理。
操作的时候,所有数据都同时放到内存中不太现实,请问这种情况下一般的处理思路是什么?
想的是做一个中间文件,第一次处理的时候,处理一条数据保存一条数据。但因为二次处理需要对所有的数据综合分析,所以还是要完全读取中间文件的数据。
刚做这方面的内容,请各位前辈多多指点,十分感谢。
程序需要处理的数据量很大的时候该怎么做呢?
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
6条回答 默认 最新
- strgrb 2015-10-29 15:39关注
如果综合分析这个过程满足结合律,或者部分满足结合律,可以考虑借鉴Hadoop中的partition过程,即:
从初始文件读入,分析后根据数据内容写到多个文件中,将需要统计分析的数据放到同一个文件中,然后逐个文件分析本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报
悬赏问题
- ¥15 一道python难题
- ¥15 用matlab 设计一个不动点迭代法求解非线性方程组的代码
- ¥15 牛顿斯科特系数表表示
- ¥15 arduino 步进电机
- ¥20 程序进入HardFault_Handler
- ¥15 oracle集群安装出bug
- ¥15 关于#python#的问题:自动化测试
- ¥20 问题请教!vue项目关于Nginx配置nonce安全策略的问题
- ¥15 教务系统账号被盗号如何追溯设备
- ¥20 delta降尺度方法,未来数据怎么降尺度