Pyhon如何读取超大CSV文件？

我现在有一组数据，共11个CSV文件。
数据总共20G左右。
现在我是每个文件赋值给一个变量，每个变量都是使用pandas的pd.read_csv()函数进行读取。
但是在运行过程中，会面临内核终止的问题。

然后，在服务器（内存90G，16核CPU）同样上述操作，依旧面临同样的问题。

请问各位，这种该如何处理？我想将这11个文件全部读取进行合并，进行后续的数据清洗和模型（XGBoodt）训练。

非常感谢！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
码农阿豪@新空间代码工作室 Java领域优质创作者 2024-03-07 12:35
关注
让阿豪来帮你解答，本回答参考chatgpt3.5编写提供，如果还有疑问可以评论或留言
问题解答：首先，面对大规模数据的读取，建议采用分段读取的方式，对数据进行拆分，多进程运行代码。可以利用Pandas的chunksize参数来将CSV文件分段读取，然后用for循环逐个处理每一块数据，最终将处理完的数据合并。其次，建议对代码进行优化，尽可能减少资源占用，如避免使用不必要的循环和变量等。最后，也可以考虑使用Dask等大数据处理框架，能够将数据分块处理并行执行。案例代码：
import pandas as pd import os # 读取CSV文件路径 file_dir = './data' files = os.listdir(file_dir) csv_files = [os.path.join(file_dir, f) for f in files if f.endswith('.csv')] # 分块读取和处理CSV文件 chunk_size = 100000 data_lst = [] for csv_file in csv_files: for chunk in pd.read_csv(csv_file, chunksize=chunk_size): # 处理该块数据 # ... # 将处理结果加入列表 data_lst.append(chunk_result) # 释放该文件的内存 del chunk # 合并处理结果 final_data = pd.concat(data_lst, axis=0) # 进一步处理和训练模型 # ...

这段代码首先读取CSV文件路径，然后使用pd.read_csv()函数分块读取每个CSV文件，对每一块数据进行处理并将结果加入列表，最终使用pd.concat()函数将处理结果合并。其中，循环结束后使用del语句释放内存空间，避免内存溢出问题。最后，可以对合并后的数据进行进一步的处理和模型训练。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(5条)

报告相同问题？

关注问题

一个python读取csv文件对指定列求和问题 python 开发语言
2022-02-14 15:21

回答 5 已采纳 import pandas as pd df=pd.read_csv('d:/data/newly_confirmed_cases_daily.csv') num=df.Akita.sum() pr
python如何使用遍历循环读取多个csv文件？ python 有问必答
2021-07-18 16:53

回答 2 已采纳循环读取某个文件夹下多个csv文件，参考代码如下：（如有帮助，望采纳！谢谢! 点击我这个回答右上方的【采纳】按钮） import os import pandas as pd import re p
python修改csv文件后读取csv文件失败 python
2022-04-24 16:46

回答 1 已采纳不要用utf-8 换成gbk
Python读取csv文件实例解析
2021-01-20 03:58

这篇文章主要介绍了Python读取csv文件实例解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下创建一个csv文件，命名为data.csv，文本内容如下： root,123456...
python 读取csv文件报错，如何解决？ python
2022-07-01 22:42

回答 2 已采纳少了个单引号KFC = pd.read_csv(r'/Users/31736/Desktop/Final Test for Data Analysis (KFC).csv')
python怎么读取db文件？ list python 算法
2022-06-21 01:14

回答 1 已采纳可以使用sqlite3，然后像类似操作数据库那样： import sqlite3 conn = sqlite3.connect("xxx.db") cursor = conn.cursor() sq
python读取csv文件 python
2022-04-26 15:45

回答 2 已采纳换成绝对路径，或者放到程序的启动目录，而且如果你是压缩着的，要解压
python读取大的csv文件
2024-07-05 03:43

伊瓦的战士莱曼的博客 Python相关视频讲解：python的or运算赋值...查看python文件_输出py文件_cat_运行python文件_shel读取大的CSV文件的Python实现在数据分析和处理的过程中，我们经常需要处理大型的CSV文件。这些文件可能包含数以百万...
请问python如何读取csv文件某列时保留空值？ python 机器学习
2019-11-07 05:02

回答 4 已采纳你取了一列带空值的dataFrame，统计元素个数的时候用这个dict(data['Gender'].value_counts()) 就是默认去掉空值，那你画图也就没有空值了，你可以用这个：dic
python读取csv文件并将字符转化为浮点型 python 有问必答
2021-06-16 22:23

回答 4 已采纳我大概知道问题了，你原来再excel读过来的数据，最终转换成了一个numpy的数组。而我们现在的结果还是一个列表。你可以尝试在现在的基础上添加以下内容： import numpy as np
python读取csv文件修改 python 有问必答
2022-03-25 09:28

回答 4 已采纳 import pandas as pd csvobj=pd.read_csv('1.csv') Profitability=[] Cost=list(csvobj["Cost"]) Paid=list
Python实现序列化及csv文件读取
2020-12-23 02:30

这篇文章主要介绍了Python实现序列化及csv文件读取,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下一、python 序列化：序列化指的是将对象转化为”串行化”...
Python读取csv文件后str转换为float python
2018-02-02 08:39

回答 4 已采纳 >>> a="-1" >>> float(a) -1.0 >>> a="-" >>> float(a) Traceba
python读取csv文件示例(python操作csv)
2020-12-24 10:32

复制代码代码如下:import csvfor line in open(“test.csv”):name,age,birthday = line.split(“,”)name = name....csv文件复制代码代码如下:alice, 22, 1992/03/05bob, 33, 1981/11/21cart, 40, 1974/07/13
python实现对csv文件的列的内容读取
2020-12-24 14:55

以下代码测试在python2.7 mac上运行成功 import csv with open('/Users/wangzhao/Downloads/test.csv', 'U') as csvfile: reader = csv.DictReader(csvfile) column = [row['Employee Name'] for row in reader] ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月7日

悬赏问题

¥15 NRF24L01能发送但是不能接收
¥15 想问一下这种情况怎么解决呢(关键词-file)
¥15 python Flassk 模块部署服务器时报错
¥15 Opencv（C++）异常
¥15 VScode上配置C语言环境
¥15 汇编语言没有主程序吗？
¥15 这个函数为什么会爆内存
¥15 无法装系统，grub成了顽固拦路虎
¥15 matlab有关债券凸性久期的代码
¥15 lvgl v8.2定时器提前到来

Pyhon如何读取超大CSV文件？

6条回答 默认 最新

问题事件

悬赏问题

6条回答默认最新