厚土载物 2020-06-28 11:50 采纳率: 100%
浏览 150
已采纳

30G的文件,截取部分记录。如何快速有效?

有个30G的文件。没有分隔符,需要根据文件中的位置,例如(第5-10位,15-20位的之类的记录)
清洗成一个4G左右的文件。

比如文件内容:

12欧卡男19900101安徽13908726545
13孔位男19900201北京13908726234
14萨拉男19901101山西13908726111

截取:第3-4位,第5位,第16-26位 这3个字段。

我的想法是用shell进行分割拼接处理,以前没有进行过这方面的开发。而且受服务器的性能限制,这个方案不太理想,所以求教,有没有更加有效的处理方式?

  • 写回答

2条回答 默认 最新

  • 吃鸡王者 2020-06-28 16:17
    关注

    你的数据是分行的,你可使用python的,文件句柄的readline,或readlines方法来分块处理数据,使用方法如下:

    f=open('data_file_name','r')
    f.readline() 每次读一行
    f.readlines(N) 每次可读入多行数据(总的数据长度不超过N字长),然后对数据逐行处理即可。磁盘读写比较费时,所以可是适当调整N值,
    来以次读入多行,可以有效减少读数据的次数,效率会高一点

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥100 任意维数的K均值聚类
  • ¥15 stamps做sbas-insar,时序沉降图怎么画
  • ¥15 unity第一人称射击小游戏,有demo,在原脚本的基础上进行修改以达到要求
  • ¥15 买了个传感器,根据商家发的代码和步骤使用但是代码报错了不会改,有没有人可以看看
  • ¥15 关于#Java#的问题,如何解决?
  • ¥15 加热介质是液体,换热器壳侧导热系数和总的导热系数怎么算
  • ¥100 嵌入式系统基于PIC16F882和热敏电阻的数字温度计
  • ¥15 cmd cl 0x000007b
  • ¥20 BAPI_PR_CHANGE how to add account assignment information for service line
  • ¥500 火焰左右视图、视差(基于双目相机)