如何用多线程、分割或并行读取，处理，写入90G超大文件？

问题遇到的现象和发生背景

有一个90G的文件，大概有16亿行。
现在要对这个文件的每一行进行处理，但是readlines太慢了。
1.首先想到的是多线程，但是似乎写入文件的时候有些问题
2.然后又看到了分割处理，分割之后不需要合并
但是那些教程越看，脑子越乱。之前也没有接触过python的这些知识。

用代码块功能插入代码，请勿粘贴截图

这个是主要的处理函数，串行处理，很慢，预计需要8天才能处理完，这个函数里还调用了一个函数（没有放）

def write_res():
    # ncbi.update_taxonomy_database()
    fw = open(output_file,"w")
    with open(input_file,"r") as fr:
        lines = fr.readlines()[1:]
        for line in lines:
            species = line.strip().split("\t")
            pid = species[0]                                                    #文件的pid
            tid = species[1]                                                    #文件的tid
            sna = ncbi.get_taxid_translator([tid])                              #获取tid对应的物种名，字典类型
            if int(tid) in sna:                                                 #判断，可无
                sn = sna[int(tid)]                                              #提取物种名
                sn1 = sn.split()
                if len(sn1) > 1:                                                #简化物种名
                    sn = sn1[0] + "_" + sn1[1][0:2]
                else:
                    sn = sn1[0]
                rn = get_rank(tid,"phylum")                                     #调用函数获取rank
                # print(pid,tid,sn,rn)
                # print("%s@@%s-%s-%s\n"%(pid,tid,sn,rn))
                fw.write("%s@@%s-%s-%s\n"%(pid,tid,sn,rn))
            else:
                # print(pid,tid,"na","na")
                print("%s@@%s-%s-%s\n"%(pid,tid,"other","other"))
                fw.write("%s@@%s-%s-%s\n"%(pid,tid,"other","other"))
    fw.close()

运行结果及报错内容

非常慢。想要多线程、并行、分割等任意一种方法让它跑的快一点。
在服务器(最多大概可以30个线程)上跑

我的解答思路和尝试过的方法

之前用的是shell，虽然比现在的pyhton快很多，但是有的数据会找错。所以改用python。
搜了多线程的教程。越看越乱。

我想要达到的结果

想要多线程、并行、分割文件(不需要再合并到一起)等任意一种方法让它跑的快一点。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

java使用多线程读取超大文件
2020-08-25 17:07

Java使用多线程读取超大文件是指在java语言中使用多线程技术来读取超大文件，以提高读取速度和效率。下面是该技术的详细介绍和实现方法。 多线程读取超大文件的必要性在读取超大文件时，使用单线程读取会出现读取...
Java多线程读取大文件
2020-12-22 21:24

【Java多线程读取大文件】是一种优化的文件处理策略，特别适用于处理大型文本文件。在传统的单线程I/O操作中，读取大文件可能导致内存溢出（OOM），尤其是在尝试一次性加载整个文件到内存时。为了避免这个问题，我们...
多线程 + java nio 实现按行读取并处理超大文件
2019-11-02 16:58

SHENKEM的博客参考： https://blog.csdn.net/qq_25473933/article/details/79603253 https://blog.csdn.net/icy_1992/article/details/41869365
Java多线程并行读取多个文件(二)
2023-12-04 09:30

境里婆娑的博客在考虑性能问题时，多线程并行读取多个文件的实现需要注意一些关键因素，以充分发挥多线程并发的优势，并避免性能瓶颈。
Linux系统下的多线程编程入门.pdf
2023-07-14 11:17

多线程编程在需要高响应性、并行处理和复杂程序结构的场景中尤为有用。例如，GUI应用程序可以使用多线程来保持界面的响应性，即使后台有耗时的任务在执行。服务器应用可以使用线程池来处理并发请求，提高服务效率。 ...
Linux下的多线程编程电脑资料
2024-12-28 19:22

多线程编程在不同应用领域有不同的应用场景，例如网络服务器需要处理大量的并发连接，图形界面程序需要同时响应多个用户输入事件，计算密集型任务如科学计算和机器学习可以利用多线程并行处理以提高计算效率。...
深入了解Golang中多线程读取大文件
2023-06-27 17:22

田猿笔记的博客在golang中，多线程读取一个大文件是一个常见的需求。本文将详细解释如何实现这个功能，并介绍学习目标和学习内容。
C++ 并行编程(thread)---多线程
2022-10-31 16:10

泠山的博客进程：指在系统中正在运行的一个应用程序；程序一旦运行就是进程；进程——资源分配的最小单位。线程：系统分配处理器时间资源的基本单元，或者说进程之内独立执行的一个单元执行流。是程序执行的最小单位。
（orc + snappy / zlib ） 多线程并行合并小文件工具类（出自：flink自定义合并orc小文件处）
2022-03-04 16:13

通过多线程并行处理和优化的压缩策略，它可以在不牺牲性能的前提下，有效解决小文件问题，提高数据处理的效率和存储的利用率。在实际应用中，可以根据集群资源和数据量调整参数，以达到最佳的合并效果。
Java多线程实现快速切分文件的程序
2020-09-02 05:27

在Java编程中，多线程可以提高程序的执行效率，特别是在处理大文件或者需要大量并发操作的任务时。本文将深入探讨如何使用Java多线程来快速切分大文件，以解决大数据导入时遇到的性能问题。首先，我们来看标题中的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月19日