30G的文件，截取部分记录。如何快速有效？

有个30G的文件。没有分隔符，需要根据文件中的位置，例如(第5-10位，15-20位的之类的记录）
清洗成一个4G左右的文件。

比如文件内容：

12欧卡男19900101安徽13908726545
13孔位男19900201北京13908726234
14萨拉男19901101山西13908726111

截取：第3-4位，第5位，第16-26位这3个字段。

我的想法是用shell进行分割拼接处理，以前没有进行过这方面的开发。而且受服务器的性能限制，这个方案不太理想，所以求教，有没有更加有效的处理方式？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
吃鸡王者 2020-06-28 16:17
关注
你的数据是分行的，你可使用python的，文件句柄的readline，或readlines方法来分块处理数据，使用方法如下：

f=open('data_file_name','r')
f.readline() 每次读一行
f.readlines(N) 每次可读入多行数据（总的数据长度不超过N字长），然后对数据逐行处理即可。磁盘读写比较费时，所以可是适当调整N值，
来以次读入多行，可以有效减少读数据的次数，效率会高一点

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

【ASP.NET编程知识】ASP.Net页面生成饼图实例.docx
2023-05-20 05:05

在ASP.NET编程中，生成图表是一项常用的功能，特别是在数据可视化的需求下。本文将详细讲解如何在ASP.NET页面中生成饼图，以及如何添加边线。饼图是一种直观展示数据比例关系的图形，尤其适用于显示各部分占整体的...
在互联网行业干数据分析师，都需要掌握哪些技能？编程语言？软件工具？
2017-12-04 11:31

阿甘的反击的博客在互联网行业做数据分析师，不仅需要具备扎实的统计学理论基础，同时对于编程的要求也很高，因为互联网与传统行业不同的是数据完全依赖与系统产生，无论是客户信息、用户行为还是整个业务流程的各个环节都来自于对应...
《汇编语言编程基础基于 LoongArch 》读书与实践笔记
2023-02-10 23:35

loongsoner的博客好记性不如烂笔头，在此记录与分享一下《汇编语言编程基础基于 LoongArch 》读书与实践笔记。如文中出现错误，欢迎在评论区留言讨论，我会尽快修改更新 :-)
用汇川EASY521 PLC，使用ST语言，完成单轴运动控制，如何实现？
2025-08-08 22:20

bug菌¹的博客 编程语言：ST（Structured Text）结构化文本语言运动逻辑：开机回原点 → 延时2秒 → AB点往复运动5次 → 停止位置参数：A点位置20mm，B点位置10mm 运动模式：点到点定位运动技术要点识别：需要配置运动轴参数...
一个很大的文件如何截取其中的指定部分行
2025-07-09 10:28

EngZegNgi的博客针对截取100-200行日志的需求，测试了awk（耗时40秒）、sed（1.5秒）和head+tail组合（0.005秒）三种方案，结果显示head+tail效率最高。文章还对比了这些工具的核心功能：awk适合结构化数据分析，sed擅长文本编辑，...
大语言模型 - 提示词（Prompt）工程入门
2024-08-16 13:46

秃了也弱了。的博客提示词工程，或称Prompt Engineering，是一种专门针对语言模型进行优化的方法。它的目标是通过设计和调整输入的提示词（prompt），来引导这些模型生成更准确、更有针对性的输出文本。在与大型预训练语言模型如GPT-3...
JDK编译生成的.class字节码文件是什么？从底层结构到代码验证，深度解析Java字节码文件
2024-04-16 07:45

程序员小海绵【王煊林】的博客从Java字节码文件的基础单位，到常量池、属性、访问标识符，搭配javap命令和HEX-Editor插件，深入剖析类的class文件
【QT Creator学习记录】QDir, QFile, CSV文件简单使用与代码示例
2023-09-27 17:59

码神保佑我的博客 QDir、QFile、CSV文件的基本使用代码示例运行结果：debug文件夹下生成对应文件代码示例运行结果： rmpath方法：删除指定多级文件夹，若文件夹不为空，删除失败。 removeRecursively方法：无论文件夹中...
Linux学习笔记09 -- 超详细shell脚本编程快速入门
2020-04-01 09:40

Freedom_Bule的博客结果如图 6.shell运算符 6.1 shell运算符种类与其他编程语言相同的是，shell同样支持多种运算符：算数运算符关系运算符布尔运算符逻辑运算符字符串运算符文件测试运算符 shell想要使用这些运算符，需要结合...
万字长文搞懂Linux 字符截取命令：cut、awk、sed
2025-04-16 07:00

阿坦同学的博客 Linux 系统中，日志文件、...它支持按字符、字节或字段（以分隔符分割）进行截取，常用于处理结构化的文本数据（如 CSV 文件或命令输出）。awk是一个功能强大的文本处理工具，支持模式匹配、字段处理、计算和编程逻辑。
没有解决我的问题, 去提问

30G的文件，截取部分记录。如何快速有效？

2条回答 默认 最新

2条回答默认最新