**等待强人解答超超大文件解析的问题

小弟是新到咱们论坛的，听说这里牛人较多，现有个超出小弟能力的问题期待大家给出意见：

读取300多个每个2G的文件，每个文件都是5列N多行，由于需要从中选出某行某列的数，所以需要按行依次扫描，性能很低很低，所以想到了内存文件映射，但是好像内存文件映射没有读行的方法readLine();请大家帮忙分析下，如何能把FileChannel与readLine()结合呢？

所以请大家给小弟指点下迷津！！！严重感谢大家！！！

问题补充：
哦，我的业务逻辑主要是每个文件的行数都是一样的在30000000行左右，我需要每隔几十行取一次那一行规定列的数据。比如取第1000行，第2000行的数据，每行有五列，中间用空格分隔。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
catstiger 2008-08-20 13:21
关注
内存映射文件用于解决多个进程共享数据，这么大的文件只要在硬盘上，怎么读都是慢。所以建议你用多线程+FileChannel来提高性能，至于readLine的结合，你可以参考 BufferedReader的做法，就是一个装饰模式，可以阅读JDK的源代码，它的注释非常清晰的。其实readLine也是一个byte一个byte的找，只是找到(c == '\n') || (c == '\r')作为一行的结束罢了。
所以，如果频繁读取这些文件，则应该建立一个索引，把每个线程读取的position记下来。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

报告相同问题？

关注问题

**等待强人解答超超大文件解析的问题
2008-08-20 11:05

回答 5 已采纳内存映射文件用于解决多个进程共享数据，这么大的文件只要在硬盘上，怎么读都是慢。所以建议你用多线程+FileChannel来提高性能，至于readLine的结合，你可以参考 BufferedReader
大一新生一枚求强人讲解一下 c语言
2022-09-08 21:12

回答 2 已采纳 #include <assert.h> #include <float.h> #include <stdio.h> float scoreOfPlayer(int
强人，牛人进来帮忙解决一下
2009-09-23 11:28

回答 2 已采纳我没有这方面的经验，只是猜测一下。 lz电脑上装摄像头了吗？装了的话，摄像头能正常工作吗？是不是需要某些配置之类。摄像头跟“vfw:Microsoft WDM Image Capture (Wi
短网址生成器强人短网址生成器 v4.06
2020-11-08 20:01

强人短网址生成器汇聚几十种短网址生成功能，支持批量生成，并且支持高级短网址生成，包括通过密码访问长网址，设置短网址的有效访问次数，有效访问时间，淘宝商品链接一键转
工作流入门推荐
2009-02-17 18:06

回答 2 已采纳 http://www.verycd.com/topics/249195/ 这里有视频教程, 其中一部分是关于工作流的.
关于jdbcTemplate的疑问 spring
2011-01-06 09:37

回答 5 已采纳恩，以前依照源代码为准，我前面是臆想
软件开发的时候流程怎么把控?
2010-06-29 23:26

回答 1 已采纳小型公司适合使用TDD模式为基础的开发模型. 楼主也提到了用户的需求变更以及项目管理上的一些问题. 鄙人不才,以3年项目承接+管理的经验来说. 贵公司要走DDD的传统开发模型的话,既费时又费
java mp3解析_java深度解析mp3文件
2021-02-12 18:25

weixin_39716800的博客 mp3这种音乐格式的音乐文件在我们的生活中遇到的是最多最普通的，那么他们有那些属性了。要是你看到下面的解释没有觉得他很强大，那你就是一个强人，在网上淘的，加上自己的一些理解吧import java.io.File;import ...
【散分请教】SSO-CAS不拦截指定的URL
2009-10-10 11:33

回答 2 已采纳 [color=red][size=large]思路：可以再SSO验证的扩展类中加判断? 判断redirect的Url，如果该URL全等于要过滤的URL，直接不验证return true[/siz
rails，text输入回车后无法输出多次回车
2010-03-24 14:47

回答 3 已采纳正则替换装white_list 和 bbcodeize 两个插件后用辅助函数 def bb(text) white_list(auto_link(bbcodeize(h(text).gsub(
ecside java.lang.OutOfMemoryError: Java heap space ajax javascript
2009-04-08 18:40

回答 2 已采纳楼主是不是机器内存比较小？我当年勇512机器做的时候就会出问题。在server的arguments的vm arguments里加这个"-Xms512m -Xmx512m"大小随意了。不要超
女强人的经典语录.doc
2021-09-18 10:00

女强人的经典语录.doc
初中语文文摘历史强人的女儿
2021-09-09 20:51

初中语文文摘历史强人的女儿
女强人的经典语录精选.doc
2021-10-11 18:39

女强人的经典语录精选.doc
CPA会计强人笔记(注释)总结.doc
2021-12-18 10:19

CPA会计强人笔记(注释)总结.doc
供销社系统农产品经济强人先进事迹.doc
2021-10-26 13:27

供销社系统农产品经济强人先进事迹
语言学习强人八种外语习得之心路历程.doc
2021-10-12 20:35

语言学习强人八种外语习得之心路历程.doc
c语言中.h文件和.cpp文件解析
2019-10-05 21:48

de20142的博客理论上来说cpp文件与头文件里的内容，只要是C语言所支持的，无论写什么都可以的，比如你在头文件中写函数体实现，任何一个cpp文件包含此头文件就可以将这个...，你可以在cpp文件中进行函数声明、变量声明、结构体声明...
公务员面试强人---面试第一借鉴.pdf
2021-11-28 02:21

公务员面试强人---面试第一借鉴.pdf
没有解决我的问题, 去提问

悬赏问题

¥15 使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时，终端显示出了sequence handled的进度条，但是并不出结果就自动终止回到命令提示行了是怎么回事：
¥15 前置放大电路与功率放大电路相连放大倍数出现问题
¥30 关于<main>标签页面跳转的问题
¥80 部署运行web自动化项目
¥15 腾讯云如何建立同一个项目中物模型之间的联系
¥30 VMware 云桌面水印如何添加
¥15 用ns3仿真出5G核心网网元
¥15 matlab答疑关于海上风电的爬坡事件检测
¥88 python部署量化回测异常问题
¥15 在现有系统基础上增加功能

**等待强人解答超超大文件解析的问题

5条回答 默认 最新

悬赏问题

5条回答默认最新