关于处理海量文件,求一个比较好的方案？

:? :? :?
我想处理一些文件的文本数据。是以一定的格式如分隔符分开的。这些文件都挺大的。一个文件应该是30M左右。
里面有一些要求，如某些列需要比较进行数据匹配。比如下面
students_1.txt
（格式为：学号,姓名,年龄,姓别,系别,班级）
100001,小A,20,男,0604,061401
100002,小B,20,女,0604,061401
100003,小C,20,男,0604,061401
100004,小D,20,男,0604,061401
100005,小E,20,女,0604,061401
100006,小F,20,男,0604,061401
100007,小G,20,女,0604,061401
（这是一些模拟数据，其实字段比这个还要多很多，大概差不多三十个左右）
工作模式应该是：
读取100个文件时，怎么处理哦？
我之前思路是：
读取：把文件名计算出来放到一个List里，然后迭代List。然后处理相关文件，
匹配：用split方式把它变成字符串数组，用数组元素进行比较
用单线程的方式。即一条线执行下去。一个文件一个文件地打开，读取，匹配，把匹配数据放到内存中关闭，再打开下一个。。。。。

谁有比较好的方案吗？比如匹配，是不是用正则表达式的方式代替split方式会好点。或者还有其它更好的吗？
对于100个文件来说，是不是用多线程的方式会好点？但如果10个线程同时开启。会加载300M文件放到内存中，会不会不合适？
请大哥们帮忙优化一下吧。。。谢谢。。
[b]问题补充：[/b]
匹配没有问题,只是好像使用split方法性能不佳.
其实还涉及到分页的问题.第一次是搜索全部的数据,然后把匹配的数据记录标识(如文件名,位置)等放到一个list里.然后下次再访问的时候,取别的页的时候,可以直接通过记录信息定位到具体的数据.然后取就行了.目前是用RandomAccessFile这个类实现.(用buffer方式对这个类进行了包装).性能还是不是很好.主要是定位到某文件某pointer里.谁有比较好的文件读取器工具吗?
:P :P :P :P
关于多线程搜索.刚才我试了一下,我控制不了.
我想通过一个线程池的方式.然后每次让10个线程进行.
只是不太会控制,如何分配这些线程.
比如我有100个文件,按理说,是一开始让十个线程进行搜索.其它的等待.然后某线程完成了后.再把这个线程分给搜索新文件.
我不知道,完成后,如何告知分配?(目前想着用回调)
但进行的时候,未分配的待搜索文件.如何让他们等待?是用sleep吗?还是?

PS:感谢bohemia 与taopian 的回答.能再给详细点方案吗?谢谢.

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

11条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
wwwghost 2009-01-18 02:19
关注
[quote]比如匹配，是不是用正则表达式的方式代替split方式会好点。[/quote]
这真是RE所长。
[quote]其实还涉及到分页的问题.第一次是搜索全部的数据,然后把匹配的数据记录标识(如文件名,位置)等放到一个list里.然后下次再访问的时候,取别的页的时候,可以直接通过记录信息定位到具体的数据.然后取就行了.目前是用RandomAccessFile这个类实现.(用buffer方式对这个类进行了包装).性能还是不是很好.主要是定位到某文件某pointer里.谁有比较好的文件读取器工具吗? [/quote]
这就是在某些应用中的所谓Catalog模式，第一次对数据文件建立索引，而后由索引定位。
[quote]关于多线程搜索.刚才我试了一下,我控制不了.
我想通过一个线程池的方式.然后每次让10个线程进行.
只是不太会控制,如何分配这些线程.
比如我有100个文件,按理说,是一开始让十个线程进行搜索.其它的等待.然后某线程完成了后.再把这个线程分给搜索新文件.
我不知道,完成后,如何告知分配?(目前想着用回调)
但进行的时候,未分配的待搜索文件.如何让他们等待?是用sleep吗?还是?
[/quote]
涉及到海量数据的处理，多线程肯定需要的，IO瓶颈是必须考虑的。
具体多线程方案：
建立一个线程数为10的线程池（参见java.concurrent package)，建立搜索任务（同前），然后你只管将task往pool里面扔。Thread pool会帮你管理线程的。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(10条)

报告相同问题？

关注问题

关于处理海量文件,求一个比较好的方案？
2009-01-17 10:28

回答 11 已采纳 [quote]比如匹配，是不是用正则表达式的方式代替split方式会好点。[/quote] 这真是RE所长。 [quote]其实还涉及到分页的问题.第一次是搜索全部的数据,然后把匹配的数据记录标识
ASP.NET创建同一个文件怎么处理？开发语言
2019-06-26 09:27

回答 1 已采纳看一下，是不是创建文件的地方存在问题的，代码检查下
java代码读取文件夹下所有文件内容，实现读取一个文件处理一个文件！？ java
2018-03-27 02:39

回答 4 已采纳先获取文件，然后对原文件进行读写就可以了 /** * One.txt中的数据如下: * 1 * 2 * 3 * 4 * 5 * --------------
java海量大文件数据处理方式
2017-10-20 23:31

西海棱镜的博客 1. 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？方案1：可以估计每个文件安的大小为50G×64=320G，远远大于内存限制...s 遍历文件a，对每个url求取，然后
java的流中可以写入多个文件么？ java 后端
2022-04-06 16:25

回答 4 已采纳可以。你这里说的文件的概念，看着不是一个文件流的概念，而是一个文件的数据（可能是字节数组）。那就可以写入一个流。看情况是要写入一个zip文件的流。
python怎样把文件夹中的多个中文txt文件，处理成一个.json文件？ python 自然语言处理
2019-11-03 19:41

回答 2 已采纳文本内容：安徽江苏浙江上海 ---------------- with open("F:/test/test.txt","rb") as f: print(f.r
C#读取文件的速度很慢怎么处理? c# json
2018-01-11 13:55

回答 9 已采纳就这个函数，绝对不可能用2-3秒。可能是其他部分的原因。在程序里多加几个时间戳，排查一下。
大型网站应用之海量数据和高并发解决方案总结一二
2016-11-19 16:46

徐刘根的博客一、网站应用背景开发一个网站的应用程序，当用户规模比较小的时候，使用简单的：一台应用服务器+一台数据库服务器+一台文件服务器，这样的话完全可以解决一部分问题，也可以通过堆硬件的方式来提高网站应用的访问...
spring　cloud　gateway过滤掉了文件上传流，怎么处理？ java spring 后端
2021-08-30 16:32

回答 1 已采纳空气
vs2019怎么生成一个可运行的exe文件？ c语言
2021-09-15 19:06

回答 2 已采纳代码无错误后编译即可生产exe。闪退是因为没有暂停。有两种方法，一是在程序return前加上两句getchar()。一句也行，两句更保险。另一种方法是在return前加一句system("pause"
关于C#config文件处理 c#
2018-03-16 03:28

回答 4 已采纳这个读写web.config代码，测试过可以用 https://www.cnblogs.com/zhangqs008/p/3773630.html ``` ```
StarGFS海量小文件的高性能存储和保护方案
2022-04-14 17:26

StarGFS的博客 StarGFS并行文件系统是一个性能为中心，围绕简单易用、易安装以及易管理而设计的领先并行文件系统。具有高性能、高可靠、出众的小文件性能等诸多特点，能很好的适应海量小文件的业务应用场景。
python数据分析之后处理的数据入什么数据库比较好 mysql？Oracle？
2018-12-12 02:10

回答 1 已采纳 mysql是数据库的处理 python可以调用mysql处理数据,也可以调用oracle等不同数据库的接口处理数据，没有哪个好，大差不多，只是在于你的系统用mysql或者Oracle
大数据处理方案
2021-11-23 19:00

IT利刃出鞘的博客本文介绍大数据的一些处理方案。
海量数据处理的方法总结
2021-04-14 00:54

张维鹏的博客所谓海量数据处理，就是指数据量太大，无法在较短时间内迅速解决，或者无法一次性装入内存。而解决方案就是：针对时间，可以采用巧妙的算法搭配合适的数据结构，如 Bloom filter/Hashmap/bit-map/堆/数据库/倒排索引...
没有解决我的问题, 去提问

悬赏问题

¥15 #MATLAB仿真#车辆换道路径规划
¥15 java 操作 elasticsearch 8.1 实现索引的重建
¥15 数据可视化Python
¥15 要给毕业设计添加扫码登录的功能！！有偿
¥15 kafka 分区副本增加会导致消息丢失或者不可用吗？
¥15 微信公众号自制会员卡没有收款渠道啊
¥100 Jenkins自动化部署—悬赏100元
¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘

关于处理海量文件,求一个比较好的方案？

11条回答 默认 最新

悬赏问题

11条回答默认最新