请教一个关于海量数据的大文件统计问题

有一个大文件 20多G 里面一行一行的(csv格式，逗号隔开的那种)都是订单信息主要的有用户id 商户id 还有就是订单id 需要求出的就是求出“每个商户”“每天的累计支付用户”和“每天的新增支付用户数”
PS：
最好能贴出代码，
最好可以用C或C++，php也ok，
还有就是内存不是很大需要考虑内存原因
我需要求出的“累计支付用户”和“新增支付用户数”的uid是需要去除重复的

最终的展现效果类似于这种

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

10条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
danielinbiti 2015-01-13 09:06
关注
如果windows平台，用内存映射最快，当然用随机读取也行。
linux平台，用随机读取文件统计吧

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

请教一个关于文件上传的问题 http java spring boot
2022-05-10 14:02

回答 1 已采纳可以直接用request.getinputstream()来接收
向各位请教一个r语言代码问题 r语言其他学习方法
2023-04-21 20:47

回答 2 已采纳就是自变量和因变量没对应上，看看是不是有NA或者超界了，可以放上截图或者代码
请教一个关于顺序表插入的问题数据结构
2021-11-11 21:14

回答 2 已采纳插入算法，顺序表一个元素插入尾部，元素都要前移，时间复杂度为n,n个元素就是n*n
一份完整的数据科学竞赛指南！
2020-12-04 19:59

Datawhale的博客 ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍“听过很多道理，却依然过不好一生；看过很多分享，却依然做不好比赛。”如今，数据科学竞赛（大数据竞赛，机器学习竞赛，人工智能算法竞赛）已经成为各大知名互联网...
请教关于python flask中怎么引用另一个文件中函数 flask python 有问必答
2022-02-21 15:01

回答 2 已采纳 import 放到 if __name__判断里面 if __name__ == '__main__': # 单独执行该页面时可以相应 from GLOBAL_PARAM import *
请教一个关于skywalking慢接口排查问题 java spring cloud
2022-10-08 11:08

回答 2 已采纳 CPU的资源限制吧，提一下限制应该就可以了
请教一个ios关于数据访问问题 asp.net ios java mysql
2015-11-12 12:34

回答 7 已采纳 ios现在主流是用 Sqlite,sql语句和其它一样
请教一个问题，关于控制台输出乱码的 intellij-idea
2022-05-14 11:41

回答 2 已采纳单纯就是有些符号它就是识别不了，你换个符号说不定它就能显示了
请教一个关于matlab中if语句循环嵌套的问题 matlab 有问必答
2021-06-03 20:01

回答 3 已采纳 if P(i+1)＜220 continue; 符合条件cnotinue跳过此次循环进入下一次。下面同理 if P(i+1)>300 continue; 可以这样，
请教关于使用Python统计文本文件中制定信息次数的问题和思路 python 有问必答
2021-07-12 16:04

回答 1 已采纳对文本行进行遍历，判断提取，也可以读取成datefrme,用条件判断选取出符合条件的行，用len(df1)即可。 #正则可以用re.findall('([\d\.\s]+): \w.*(Gigabit
【大语言模型LLM】-大语言模型如何编写Prompt?
2024-04-18 13:34

西瓜WiFi的博客在实际的工作流中，我们往往要处理大量的评论文本，下面的示例将多条用户评价集合在一个列表中，并利用 for 循环和文本概括（Summarize）提示词，将评价概括至小于 20 个词以下，并按顺序打印。虽然我们通过添加关键...
请教一下关于pg数据库插入数据的问题 java 数据库
2022-04-08 14:41

回答 2 已采纳 1）首先得确定这个ID就是max后的id，2秒内人工能确定这个ID就是刚生成ID？2）你的测试我估计你是用来两个定时器，一个是插入数据的定时器，一个是查询数据的定时器3）要求2秒后就能查，能说说这是什
数据科学竞赛经验分享：你从未见过的究极进化秘笈
2020-12-01 11:07

风度78的博客作者：David K(来自知乎)排版：杰少，kaggle竞赛宝典小编“听过很多道理，却依然过不好一生；看过很多分享，却依然做不好比赛。”如今，数据科学竞赛（大数据竞赛，机器学习竞赛，人...
干货，OLAP数仓从百万到百亿级数据量实时分析
2021-01-16 21:07

小晨说数据的博客一、有哪些类型的OLAP数仓？1.按数据量划分对一件事物或一个东西基于不同角度，可以进行多种分类方式。对数仓产品也一样。比如我们可以基于数据量来选择不同类型的数量，如下图所示：本系列文章...
没有解决我的问题, 去提问

悬赏问题

¥15 #MATLAB仿真#车辆换道路径规划
¥15 java 操作 elasticsearch 8.1 实现索引的重建
¥15 数据可视化Python
¥15 要给毕业设计添加扫码登录的功能！！有偿
¥15 kafka 分区副本增加会导致消息丢失或者不可用吗？
¥15 微信公众号自制会员卡没有收款渠道啊
¥100 Jenkins自动化部署—悬赏100元
¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘

请教一个关于海量数据的大文件统计问题

10条回答 默认 最新

悬赏问题

10条回答默认最新