for循环处理大量数据怎么优化

我想把上图的csv文件转为下图的csv文件，然后写了一段能用但是在处理较多数据时会导致处理时间过长，加了一个tqdm才发现要这么久。

以下是代码，主要问题应该是for循环，求怎么改


from tqdm import tqdm
a=int(input('行数'))
b=int(input('列数'))
import csv
ls1=[]
ls2=[]
#encoding='gbk',errors='ignore'
with open('.\\123.csv','r',newline='') as f:#with open('F:\\py\\project\\pythonProject\\121.csv')
    cr=csv.reader(f)
    for line in cr:
        ls1.append(line)
   # print(ls1)
    for i in tqdm(range(a*b)):#原来的行数乘列数加一len(ls1)*len(ls1[3]+1
        for j in range(0,a):#行
            for k in range(0,b):#列
                ls2.append([ls1[j][k],k,-j])
#print(ls2)
with open('example.csv', mode='w', newline='') as file:
    writer = csv.writer(file)
    writer.writerow(['T','X','Y'])
    writer.writerows(ls2)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

9条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2024-04-17 15:48
关注
以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳：

根据您提供的链接内容，问题的核心在于如何优化for循环处理大量数据的代码，以减少处理时间。在CSDN问答中，有几位回答者提供了不同的优化方案，这里我将结合这些方案，给出一个综合性的回答。

1. 使用列表推导式

列表推导式是Python中一种优雅且高效的构建列表的方法。它可以用一行代码替代多层嵌套循环，从而提高代码的执行效率。

from tqdm import tqdm a = int(input('请输入行数：')) b = int(input('请输入列数：')) with open('.\\123.csv', 'r', newline='') as f: ls1 = list(csv.reader(f)) ls2 = [[row[i], i, -j] for j, row in enumerate(ls1) for i in range(b)] with open('example.csv', mode='w', newline='') as file: writer = csv.writer(file) writer.writerow(['T', 'X', 'Y']) writer.writerows(ls2)

2. 使用Pandas库

Pandas是一个强大的数据处理库，它提供了DataFrame结构，可以高效地处理大型数据集。使用Pandas可以避免使用Python原生的循环，从而提高数据处理速度。

import pandas as pd from tqdm import tqdm df = pd.read_csv('123.csv', header=None, encoding='gbk', error_bad_lines=False) num_rows, num_cols = df.shape new_df = pd.DataFrame({ 'T': [''] * (num_rows * num_cols), 'X': [0] * (num_rows * num_cols), 'Y': [0] * (num_rows * num_cols) }) index = 0 for i in tqdm(range(num_rows)): for j in range(num_cols): new_df.loc[index] = [df.iloc[i, j], j, -i] index += 1 new_df.to_csv('example.csv', index=False)

3. 使用NumPy库

NumPy是一个用于科学计算的库，它提供了多维数组对象和一系列处理数组的函数。对于处理大量数据，使用NumPy可以显著提高性能。

import csv import numpy as np a = int(input('行数')) b = int(input('列数')) ls1 = [] with open('.\\123.csv', 'r', newline='') as f: for line in csv.reader(f): ls1.append(line) ls1 = np.array(ls1) ls2 = np.array([row[i] for row in ls1 for i in range(b)]).reshape(-1, 3) ls2[:, 1] = np.arange(b).repeat(b) ls2[:, 2] = np.arange(a) * -1 with open('example.csv', mode='w', newline='') as file: writer = csv.writer(file) writer.writerow(['T', 'X', 'Y']) writer.writerows(ls2)

4. 多线程或多进程

对于大规模数据处理，可以考虑使用多线程或多进程来并行处理数据。Python的concurrent.futures模块提供了简单的接口来实现并发执行。

from concurrent.futures import ProcessPoolExecutor import csv def process_data(start, end): with open('.\\123.csv', 'r', newline='') as f: reader = csv.reader(f) data = [row[start:end] for row in reader] return data a = int(input('行数')) b = int(input('列数')) with ProcessPoolExecutor() as executor: futures = [executor.submit(process_data, i*b, (i+1)*b) for i in range(a)] ls2 = [data for future in futures for data in future.result()] with open('example.csv', mode='w', newline='') as file: writer = csv.writer(file) writer.writerow(['T', 'X', 'Y']) for data in ls2: writer.writerow(data)

结论

以上四种方法都可以有效地优化处理大量数据的代码。您可以根据实际情况和需求选择最合适的方法。列表推导式和Pandas适用于单机单线程的数据处理，而NumPy适用于需要进行数值计算的场景。如果数据量非常大，可以考虑使用多线程或多进程来进一步提高处理速度。在实际应用中，可能需要根据数据的特点和处理需求，结合多种方法来达到最佳的优化效果。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(8条)

报告相同问题？

关注问题

数据结构for循环问题 c++ c语言数据结构
2022-02-22 20:54

回答 4 已采纳 for(int i =1; i<=n; i++)这里意思是先给i赋初值1，然后判断i<=n,则执行函数体执行完后i+1,再判断i<=n，成立则执行所以，最终就是 i从1到 i<
R语言for循环嵌套求解 r语言
2023-04-01 01:18

回答 2 已采纳以下是使用一对嵌套的“for”循环进行循环的代码，以实现上述要求： for(i in 1:nrow(x)) { for(j in 1:ncol(x)) { if(x[i,j] %% 2 =
利用for循环进行python编程 python
2021-11-23 18:45

回答 1 已采纳 for i in range(1,5): for j in range(0,4 - i): print(end =" "); for k in range(0,2*
提升C/C++编程效率：深入C/C++ for循环的优化与应用
2023-04-05 00:58

泡沫o0的博客提升C/C++编程效率：深入for循环的优化与应用
for循环插入数据不会写了，求指点 java
2017-05-25 08:05

回答 2 已采纳 if(i==1 && j==2){ 插入数据} 1代表第二行 2代表第三列
r语言数据批量处理问题 python r语言
2022-07-11 13:28

回答 2 已采纳是Excel文件吗，python可以实现，需要给我看一下文件里数据的格式，截个图就可以
pandas 向量化优化双重for循环 python
2021-03-14 19:22

回答 2 已采纳题主，你的意思是希望找到第s列，以第i行为结尾，满足第j行开始，和大于n的那一个j吗？如果是这样的话，算法运行效率比较慢的原因是，在if df4.sum() >= n的时候，每次计算完sum
【编程技巧】多重for循环优化
2022-05-24 22:54

代码瞬间移动工程师的博客编程技巧——多重for循环优化目录编程技巧——多重for循环优化前言一、优化方案二、示例1.初始化数据2.双重for循环3.list结合map总结前言今天群友问了一个问题，多重for循环怎么优化？然后有感而发，将平时...
r语言for循环中如何遍历所有xi？ r语言
2022-05-23 19:20

回答 1 已采纳 for(i in 1:10){ writeData(wb, sheet = 1, get(paste("x",i,sep="")), startCol = i) }
for循环存取数据到文件中
2015-06-27 11:44

回答 5 已采纳我觉得这个问题就是写入数据的问题，怎么大家给的答案都是从txt中读取数据呢。。。脚蹬轱辘转同学给的思路是正确的，遍历数组，然后用输出流写入数据即可。给你个参考例子吧： ``` in
关于For循环绘制大量曲线问题 list python 有问必答
2021-09-24 22:33

回答 4 已采纳错误在于这两行：for b_1 in np.arange(-0.5, -1.0, 0.1): for b_2 in np.arange(-0.5, -1.0, 0.1):步长写错
for循环优化_Python中的循环比较和性能
2020-11-21 09:41

weixin_39747334的博客 Python是当今最受欢迎的编程语言之一。这是一种具有优雅且易读语法的解释性高级语言。但是，Python通常比Java，C＃尤其是C，C ++或Fortran慢得多。有时性能问题和瓶颈可能会严重影响应用程序的可用性。幸运的是，在...
shell编程for循环的问题 linux
2015-06-20 05:36

回答 3 已采纳 ``` #!/bin/bash total=0 n=100 for ((j=1;j<=n;j++)) do total=`expr $total + $j` do
嵌套for循环的九九乘法表——四个方向打印
2023-12-04 22:12

红目香薰的博客嵌套for循环的九九乘法表——四个方向打印学习九九乘法表的四种打印方式在 Java 编码学习中具有重要意义，不仅可以帮助你掌握基础语法、增强逻辑思维和提升算法能力，还可以培养你的编程兴趣和拓展编程视野。
Python NLP自然语言处理详解
2022-10-18 13:39

wespten的博客这类数据一般不需要做处理，只需要存储和读取。第二类是数字类数据，其价值很高。因为数字是有一定规律的，从已有数字中发现的规律可以用于预测未来的数据。这也是传统大数据处理与分析的主要方面。第三类是自然语言...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月17日

悬赏问题

¥15 Mac系统vs code使用phpstudy如何配置debug来调试php
¥15 目前主流的音乐软件，像网易云音乐，QQ音乐他们的前端和后台部分是用的什么技术实现的?求解！
¥60 pb数据库修改与连接
¥15 spss统计中二分类变量和有序变量的相关性分析可以用kendall相关分析吗？
¥15 拟通过pc下指令到安卓系统，如果追求响应速度，尽可能无延迟，是不是用安卓模拟器会优于实体的安卓手机？如果是，可以快多少毫秒？
¥20 神经网络Sequential name=sequential, built=False
¥16 Qphython 用xlrd读取excel报错
¥15 单片机学习顺序问题！！
¥15 ikuai客户端多拨vpn，重启总是有个别重拨不上
¥20 关于#anlogic#sdram#的问题，如何解决？(关键词-performance)

for循环处理大量数据怎么优化

9条回答 默认 最新

1. 使用列表推导式

2. 使用Pandas库

3. 使用NumPy库

4. 多线程或多进程

结论

问题事件

悬赏问题

9条回答默认最新