python用pandas库写入xlsx文件时速度过慢如何优化

本人在校学生自学不太明白经过本人不严谨测试发现问题出在df.to_excel这里因为写入的数据大概在90+列 50w+行导致一直卡在这里具体多久跑完不知道（跑了几十分钟没跑完）并且16g内存爆满
有没有可以提升处理效率的方法
感激不尽


for file_name_csv in os.listdir(Excel_csv_folder):
    if file_name_csv.endswith('.csv'):
        df = pd.read_csv(os.path.join(Excel_csv_folder, file_name_csv))
        xlsx_filename = file_name_csv.replace('.csv', '.xlsx')
        df.to_excel(os.path.join(Excel_elsx_folder, xlsx_filename), index=False)
for file_name in os.listdir(Excel_elsx_folder):
    if file_name.endswith('.xlsx'):
        excel_file_path =os.path.join(Excel_elsx_folder,file_name)
        # 读取Excel文件
        df = pd.read_xlsx(excel_file_path)
        # 遍历B列的每一行元素，匹配字典中的值，并将对应的键写入A列相同的行
        for index, row in df.iterrows():
            # 获取B列的元素值
            value_in_D = row['Indicator Code']
            # 在字典中查找匹配的键
            corresponding_key_IDC = IDC_dict.get(value_in_D)
            if corresponding_key_IDC != None:
                df.at[index,'Indicator Code'] = corresponding_key_IDC
        # 将修改后的DataFrame写回Excel文件
        df.to_xlsx(excel_file_path, index=False)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
檀越@新空间 2024-04-02 22:47
关注
晚上好🌙🌙🌙
本答案参考ChatGPT-3.5

当处理大量数据时，Pandas的性能可能会受到限制。在处理上千行和上百列的数据时，可能会遇到内存不足和执行速度慢的问题。为了优化Pandas的性能，你可以尝试以下几个方法：

批量处理: 一次性处理所有的CSV文件，而不是逐个读取和写入。这样可以减少IO操作的次数，提高处理效率。你可以使用多线程或并行计算库（如Dask或Joblib）来并行处理多个CSV文件。

适当选择数据类型: 尽量使用适当的数据类型来存储数据，以减少内存占用。例如，将数值列转换为具体的数值类型（如int、float），将字符型列转换为category类型。

使用chunksize参数: 如果内存不足，你可以尝试使用chunksize参数来分块读取CSV文件，将数据分成多个小块进行处理，然后再将结果合并。这可以减少内存的使用量。

使用compression参数: 如果CSV文件较大，你可以考虑使用compression参数来压缩输出的xlsx文件，这可以减少磁盘空间的占用。

避免多次写入: 你可以在内存中对数据进行处理，然后一次性写入到xlsx文件。这样可以减少写入操作的次数，提高效率。

以下是修改后的代码示例：

import os import pandas as pd for file_name_csv in os.listdir(Excel_csv_folder): if file_name_csv.endswith('.csv'): csv_file_path = os.path.join(Excel_csv_folder, file_name_csv) xlsx_file_path = os.path.join(Excel_elsx_folder, file_name_csv.replace('.csv', '.xlsx')) # 读取CSV文件，设定适当的数据类型 dtypes = {'Indicator Code': 'category'} df_chunks = pd.read_csv(csv_file_path, dtype=dtypes, chunksize=1000) writer = pd.ExcelWriter(xlsx_file_path, engine='xlsxwriter') for i, chunk in enumerate(df_chunks): # 在内存中对数据进行处理 chunk['Indicator Code'] = chunk['Indicator Code'].map(IDC_dict) # 将处理后的数据写入到xlsx文件的不同sheet中 chunk.to_excel(writer, sheet_name=f'Sheet{i+1}', index=False) writer.save() writer.close()
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python使用pandas操作xlsx
2024-05-22 17:44

豆芽脚脚的博客 python操作xlsx有很多种方法，以前使用其他控件操作，使用这个pandas之后发现更好用。场景，我需要读取xlsx模板，然后根据模板去获取数据，根据用户要求导出指定的xlsx文件。
Python使用pandas和xlsxwriter读写xlsx文件的方法示例
2020-09-19 11:44

在Python中处理Excel文件，我们经常使用pandas和xlsxwriter这两个库。pandas是一个强大的数据分析工具，而xlsxwriter则用于创建和修改Excel文件。以下是对标题和描述中提到的使用pandas和xlsxwriter读写xlsx文件的...
使用 Pandas 处理 .xlsx 文件的教程(Python)
2024-10-09 10:01

Persus的博客本文介绍了如何使用 `Pandas` 处理 `.xlsx` 文件，包括读取、写入、数据操作以及一些高级操作。Pandas 为处理 Excel 文件提供了强大的功能，特别是在数据清洗、分析和保存方面，它可以帮助轻松应对复杂的 Excel 数据...
python-pandas-写入到xlsx-csv
2022-01-06 10:13

L'y的博客 1. 安装过程中遇到的库相关的报错,可以自行百度. xlsx import pandas as pd def write_xlsx(list_a, filenames_xlsx): header = ['name', 'age'] with open(filenames_xlsx, 'w+', encoding='utf-8')as f: pass...
Python使用pandas导入xlsx格式的excel文件内容
2022-12-22 18:39

smart_cat的博客本文介绍了Python如何使用pandas导入xlsx格式的excel文件内容
python pandas写入excel文件的方法示例
2020-09-19 06:04

1. **依赖库**: 在使用 Pandas 处理 Excel 文件时，需要安装额外的库。对于 `.xlsx` 文件，需要安装 `openpyxl`；对于 `.xls` 文件，则需要安装 `xlrd` 和 `xlwt`。这些库可以通过 pip 命令进行安装，例如： ```...
python用pandas写入excel_python pandas 读取文件写入文件excel
2021-03-06 17:37

Ushaal的博客读取数据import pandas as pdimport collectionsdef readLocationCodeForExcel():read_file = r"test.xlsx"sheet_names = {"库位码","地堆码"}sheet_data = pd.ExcelFile(read_file) #读取sheet数据#sheet列表read_...
python写入数据到csv或xlsx文件的3种方法
2020-09-18 18:34

在使用pandas写入数据之前，需要先创建一个DataFrame对象，该对象可以存储结构化数据。DataFrame对象提供了to_csv()和to_excel()两个方法用于将数据写入CSV和Excel文件。这两个方法操作简便，只需指定文件名即可，...
python Pandas库 xlsx，Excel 表格
2024-02-22 13:39

sun007700的博客这段代码首先导入了pandas库，然后创建了一个包含名字、年龄和城市信息的DataFrame对象。接下来指定要保存为.xlsx格式的文件名（函数将DataFrame写入该文件中。最后打印输出提示消息。
Python使用openpyxl库或pandas库创建.xlsx格式的Excel文件，并向文件不同的sheet按行或按列写入内容
2024-03-13 14:52

Lightning-py的博客【代码】Python使用openpyxl库或pandas库创建.xlsx格式的Excel文件，并向文件不同的sheet按行或按列写入内容。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月2日

python用pandas库写入xlsx文件时速度过慢如何优化

2条回答 默认 最新

问题事件

2条回答默认最新