python处理超大（12.3GB）CSV文件，获取指定关键词所在行的数据输出为新CSV文件

筛选一个12.3GB的EXCEL文件中的关键词所在行的数据，太大了打不开。关键词由一个小文件决定，小文件（20.6MB）显示如下：

前七行无用，第八行是表头，从第九行开始往后就是数据，其第一列的cg00000292、cg00002426...就是关键词。
已知大文件数据的第一列也是cg+编号，大文件和小文件该列数据是有重合cg编号的。根据小文件中存在的cg序号所在行，提取大文件中的有对应cg序号所在行的数据，输出新的文件。
我是通过csv显示的大文件：

import csv
with open('大文件.csv', 'r') as f:
    reader = csv.reader(f)
    print(type(reader))
    for row in reader:
        print(row)

显示结果为：

但我看不到像小文件截图中显示的，类似小文件的前七行和后几行这样的信息。可以确定cg所在行的数据的开头也是是cg+编号，所以可以因此筛选。

举个例子说明一下问题：假设大文件是这样的话：

而只有cg00000292也出现在小文件的第一列cg编号中，所以筛选大文件输出的新文件为：

我一开始的思路：①用一段代码先：获得大文件中每个cg编号的所在行数②去和小文件对应，获得重复cg编号有哪些，根据其在大文件中对应的行数，输出大文件这些行获得新excel文件实现筛选。

但是文件实在太大了，处理不周到昂。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
cjh4312 2023-01-14 17:40
关注
你可以先测试一下，用pandas,如果数据太大，你还可以先切一部分数据出来看看

import pandas as pd dd=pd.read_csv('大文件.csv') #数据切片 df=dd[0:100] print(df) data=dd[dd.iloc[:,0]=='cg00000292'] #如果知道第一列表头 data=dd[dd['列名']=='cg00000292']
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

python处理超大（12.3GB）CSV文件，获取指定关键词所在行的数据输出为新CSV文件 python 有问必答
2023-01-14 17:07

回答 3 已采纳你可以先测试一下，用pandas,如果数据太大，你还可以先切一部分数据出来看看 import pandas as pd dd=pd.read_csv('大文件.csv') #数据切片 df=dd[0:
一个python读取csv文件对指定列求和问题 python 开发语言
2022-02-14 15:21

回答 5 已采纳 import pandas as pd df=pd.read_csv('d:/data/newly_confirmed_cases_daily.csv') num=df.Akita.sum() pr
python如何提取csv文件中的指定行并保存到新csv文件中 python 有问必答
2021-07-09 09:47

回答 2 已采纳用datetime函数转换一下日期，使用pandas提取出指定日期的数据，to_csv保存为另一个csv文件即可。转换语句可以用data['date'] = data['date'].apply(la
python对csv文件的操作、注意事项及详解(实际运行成功案例)
2021-10-19 11:37

python对csv文件的操作、注意事项及详解(实际运行成功案例)
使用python 实现对CSV文件数据的处理 python 大数据
2022-03-18 16:05

回答 2 已采纳 import pandas as pd import re df = pd.DataFrame({'Category':['C,D','A,B,C','A,D','C','A,D','A,B,C','
Python Pandas 删除.csv文件的指定行 python
2022-04-09 13:50

回答 2 已采纳 df.drop(df.index[int(linenum) + 1], inplace=True) # 删除第int(linenum) + 1行如果有帮助点一下下采纳
如何使用python导入csv文件，并将csv中某一列的数据生成一个列表？ python 数据分析数据挖掘
2022-01-03 11:59

回答 1 已采纳是否需要对原数据进行修改呢？如果不需要，请看以下方法：将读取出来的列，再进行赋值，就可以单独形成一个列表了。如果答案，您满意，请采纳意见和点赞关注，支持一下，谢谢！
python将矩阵存为csv文件_用numpy创建矩阵CSV文件
2021-02-10 09:48

weixin_40005330的博客在所以我有一个CSV文件，内容如下：dsa dds fsdf dasdsa1 1 32.2 9 41 2 53.2 8 21 3 44.2 0 11 4 12.3 3 21 5 15.6 4 32 1 12.3 3 22 2 91.3 4 112 3 32.3 5 332 4 44.2 3 22 5 55.2 4 13 1 60.2 4 23 2 80.2 1 153...
如何用Python 3遍历循环下载CSV文件中内容链接的图片？ python 爬虫
2018-11-07 15:02

回答 2 已采纳把 i=1放在for link in links:的上面如果不放for循环上面，i每次循环都被初始化为 1 了，i = i+1虽然加了1,但是下一次循环，i又被初始化为1了。这样不管下载多少张
python修改csv文件后读取csv文件失败 python
2022-04-24 16:46

回答 1 已采纳不要用utf-8 换成gbk
python如何统计csv/Excel文件里面的某一列数据的词频？ python
2021-12-17 21:35

回答 3 已采纳 https://pandas.pydata.org/docs/reference/api/pandas.Series.str.count.html?highlight=count#pandas.Ser
python123平台作业答案第十周csv文件编程_全国计算机等级考试二级教程-Python语言程序设计（2018年版）编程题-参考答案...
2020-12-06 18:07

weixin_39710396的博客 Python教材习题3-基本数据类型1.获得用户输入的一个整数，输出该整数百位及以上的数字。i = input("请输入一个整数：")print( i[:-2] )2.获得用户输入的一个字符串，将字符串按照空格分割，然后逐行打印出来。i = ...
怎样在Python csv文件中每24行提取一次数据并保存到一个单独的csv文件中？ python 有问必答
2022-04-08 03:39

回答 4 已采纳不需要每隔24行数据单独保存到一个文件，只需要用列表切片每隔24行切成为一个列表,把切片出来的列表作为一个元素添加到一个li2列表中.用random.shuffle(li2)随机打乱li2,再合并写到
Python项目实践：串口字符串数据的读取、分割与保存到csv文件
2020-12-15 00:36

LaciliaExe的博客 Python项目实践：串口字符串数据的读取、分割与保存到csv文件程序功能运行条件准备工作与说明代码解读import 部分从串口读取数据（函数）对csv文件的处理（函数）将串口数据读取并保存到csv（函数，主进程）键盘中断...
python获取csv某一列最小值_使用python查找CSV文件的每一列的最小值
2021-03-06 22:31

我变成了一条狗的博客以下应该工作：with open("data.csv", "r") as f_input:lmin_col = []lmin_row = []for row in csv.reader(f_input):row = map(float, row)lmin_row.append(min(row))if lmin_col:lmin_col = map(min, lmin_col, row...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 1月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月14日

悬赏问题

¥15 Python turtle 画图
¥15 关于大棚监测的pcb板设计
¥15 stm32开发clion时遇到的编译问题
¥15 lna设计源简并电感型共源放大器
¥15 如何用Labview在myRIO上做LCD显示？(语言-开发语言)
¥15 Vue3地图和异步函数使用
¥15 C++ yoloV5改写遇到的问题
¥20 win11修改中文用户名路径
¥15 win2012磁盘空间不足,c盘正常，d盘无法写入
¥15 用土力学知识进行土坡稳定性分析与挡土墙设计

python处理超大（12.3GB）CSV文件，获取指定关键词所在行的数据输出为新CSV文件

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新