厚土载物 2020-06-28 11:50 采纳率: 100%

浏览 150

已采纳

30G的文件，截取部分记录。如何快速有效？

有个30G的文件。没有分隔符，需要根据文件中的位置，例如(第5-10位，15-20位的之类的记录）
清洗成一个4G左右的文件。

比如文件内容：

12欧卡男19900101安徽13908726545
13孔位男19900201北京13908726234
14萨拉男19901101山西13908726111

截取：第3-4位，第5位，第16-26位这3个字段。

我的想法是用shell进行分割拼接处理，以前没有进行过这方面的开发。而且受服务器的性能限制，这个方案不太理想，所以求教，有没有更加有效的处理方式？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
吃鸡王者 2020-06-28 16:17
关注
你的数据是分行的，你可使用python的，文件句柄的readline，或readlines方法来分块处理数据，使用方法如下：

f=open('data_file_name','r')
f.readline() 每次读一行
f.readlines(N) 每次可读入多行数据（总的数据长度不超过N字长），然后对数据逐行处理即可。磁盘读写比较费时，所以可是适当调整N值，
来以次读入多行，可以有效减少读数据的次数，效率会高一点

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

悬赏问题

¥20 腾讯企业邮箱邮件可以恢复么
¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗？
¥15 错误 LNK2001 无法解析的外部符号
¥50 安装pyaudiokits失败
¥15 计组这些题应该咋做呀
¥60 更换迈创SOL6M4AE卡的时候，驱动要重新装才能使用，怎么解决？
¥15 让node服务器有自动加载文件的功能
¥15 jmeter脚本回放有的是对的有的是错的
¥15 r语言蛋白组学相关问题
¥15 Python时间序列如何拟合疏系数模型