程序需要处理的数据量很大的时候该怎么做呢？

如果程序一次需要处理的数据有很多，比如上千万条宠物信息，保存在txt中有100多个G，这时候需要对每条宠物数据做逐一处理，然后对处理结果分类综合再进行二次处理。
操作的时候，所有数据都同时放到内存中不太现实，请问这种情况下一般的处理思路是什么？
想的是做一个中间文件，第一次处理的时候，处理一条数据保存一条数据。但因为二次处理需要对所有的数据综合分析，所以还是要完全读取中间文件的数据。
刚做这方面的内容，请各位前辈多多指点，十分感谢。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
strgrb 2015-10-29 15:39
关注
如果综合分析这个过程满足结合律，或者部分满足结合律，可以考虑借鉴Hadoop中的partition过程，即：
从初始文件读入，分析后根据数据内容写到多个文件中，将需要统计分析的数据放到同一个文件中，然后逐个文件分析

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(5条)

报告相同问题？

关注问题

程序需要处理的数据量很大的时候该怎么做呢？大数据
2015-10-23 06:46

回答 6 已采纳如果综合分析这个过程满足结合律，或者部分满足结合律，可以考虑借鉴Hadoop中的partition过程，即：从初始文件读入，分析后根据数据内容写到多个文件中，将需要统计分析的数据放到同一个文件中，
在sql中多大的数据才算是大数据？ java mysql 数据库
2022-03-31 17:24

回答 5 已采纳其实没有实际的标准明确定义多少数据量算大数据，不过阿里开发手册中建议，表数据超过500万条时，建议考虑分表，以防影响查询效率，不过我们公司也有单表超过几千万条的数据，效率确实不高，所以理论上百万级别以
java在大数据里面主要做什么呢？ java 大数据
2022-08-08 21:59

回答 3 已采纳 java数据挖掘数据仓储数据清洗全栈都可以啊具体可以了解下hadoop
Java在处理大数据的时候一些小技巧
2020-12-22 15:09

众所周知，java在处理数据量比较大的时候，加载到内存必然会导致内存溢出，而在一些数据处理中我们不得不去处理海量数据，在做数据处理中，我们常见的手段是分解，压缩，并行，临时文件等方法；　例如，我们要将...
大数据运行在内存中产生的中间数据一般有多大？ linux 大数据
2018-07-09 04:20

回答 5 已采纳运行内存是可以设置的，以运行一个spark作业为例，提交作业时可以执行本次作业所需要的总共cpu核心数和总共的内存数，作业提交后spark 的 sparkContext 会向集群申请分配资源，集群会最
用深度学习做文本分类，需要多大的样本量？准备自己构建数据集，正负样本比例最大不能大于多少？ tensorflow 人工智能数据挖掘深度学习自然语言处理
2020-07-30 11:12

回答 1 已采纳这个不可一概而论。看你是在什么场景下分类，如果是特定的一些内容，比如用户简单的评价做正面负面分类，很少的样本就可以了。如果要在自然语境中无限的分类，那么就需要很大的样本。另外和你的模型、模型的
数据科学与大数据技术和数据科学与大数据技术（智能信息处理）大数据有问必答
2022-01-11 20:09

回答 2 已采纳学习的基础都是一样的，带括号就代表学习路线更倾向于智能信息处理，数据科学与大数据技术的方向有很多的，那个只是其中一个，出来后你也不一定会走那个路线，主要看自己的选择，就比如说软件工程专业的倾向于Jav
到底多大的数据才叫大数据?大数据的商机有哪些?
2019-04-29 15:29

程序の之道的博客很多没有接触过大数据的人，都很难清楚地知道，究竟多大的数据量才可以称之为大数据。那么，根据数据收集的端口，企业端与个人端之间，大数据的数量级别是不同的。企业端(B端)数据近十万的级别，就可以称为大数据;...
Db2大数据量的表查询优化
2017-08-24 01:38

回答 2 已采纳交叉连接由于其返回的结果为被连接的两个数据表的乘积，因此当有WHERE, ON或USING条件的时候一般不建议使用，因为当数据表项目太多的时候，会非常慢。一般使用LEFT [OUTER] JOIN或者
数据仓库 大数据 apachhive hive 大数据数据仓库
2023-02-24 15:51

回答 1 已采纳是的，Apache Hive的分层就是指把不同维度的数据抽取出来，并根据不同的维度进行分类存放。通过这种方式，可以更好的管理数据，便于后续的查询和分析处理。
大数据离线数仓的学习路线是什么？大数据数据仓库有问必答
2021-11-03 15:23

回答 1 已采纳 Java或者python基础 hdfs zookeeper flume kafka hive mysql sqoop azkaban,离线数仓只是大数据一部分内容，发展方向这个不好说，你不能只靠这一个
大数据是如何定义，多大的数据是大数据？
2021-02-08 12:17

暗涧幽火的博客很多没有接触过大数据的人，都很难清楚地知道，究竟多大的数据量才可以称之为大数据。那么，根据数据收集的端口，企业端与个人端之间，大数据的数量级别是不同的。企业端(B端)数据近十万的级别，就可以称为大数据;...
运用matlab处理大数据 matlab
2017-08-17 04:59

回答 1 已采纳 X = one(1:1000); %坐标点X轴 Y = one(1:1000); %坐标点Y轴 NodeId = zero(); % 标号序列 NodeCount = 0; %某区间符合条件的个
mysql 处理大数据太慢_总结MySQL大数据量下如何进行优化
2020-12-20 18:56

weixin_39914732的博客就应对一些常见问题有所考虑，以避免在数据增长一段时间后再做应对，可能造成时间及维护成本增加：数据的月增量，年增量数据的快速增长点是否需要触发器或事件等查询业务需求服务器访问量以上的考虑项，对数据库的...
大数据分析和大数据开发哪个好就业啊？
2022-11-09 18:55

我想去吃ya的博客从所需掌握的技能维度来看，数据工程师的工作重点在于数据架构、计算、数据存储、数据流等，所以开发能力和大规模的数据处理能力是作为数据工程师的一些必备技能。因为数据工程师还负责数据库设计、数据仓储，这就...
没有解决我的问题, 去提问

悬赏问题

¥15 乘性高斯噪声在深度学习网络中的应用
¥15 运筹学排序问题中的在线排序
¥15 关于docker部署flink集成hadoop的yarn，请教个问题 flink启动yarn-session.sh连不上hadoop，这个整了好几天一直不行，求帮忙看一下怎么解决
¥30 求一段fortran代码用IVF编译运行的结果
¥15 深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集
¥15 C++ 头文件/宏冲突问题解决
¥15 用comsol模拟大气湍流通过底部加热（温度不同）的腔体
¥50 安卓adb backup备份子用户应用数据失败
¥20 有人能用聚类分析帮我分析一下文本内容嘛
¥30 python代码，帮调试，帮帮忙吧

程序需要处理的数据量很大的时候该怎么做呢？

6条回答 默认 最新

悬赏问题

6条回答默认最新