pandas的向量化处理怎么比普通迭代还慢很多

我用了如下三种方法测量pandas列之间相加的效率：1.向量化 2.iterrows迭代 3.先转化成numpy再相加

按道理向量化处理肯定要比迭代快啊为什么实际测下来会慢这么多呢？

df1 = pd.DataFrame({'aaa':{'0':0},
'bbb':{'0':8568}
,'ccc':{'0':1}
,'ddd':{'0':0}})
print(df1)
t = timeit.timeit(stmt="df1['aaa']+df1['bbb']+df1['ccc']+df1['ddd']", setup="from __main__ import df1",number=10000)
print(t)
t = timeit.timeit(stmt="for index,row in df1.iterrows():"
"row['aaa']+row['bbb']+row['ccc']+row['ddd']", setup="from __main__ import df1",number=10000)
print(t)

t = timeit.timeit(stmt="df1['aaa'].values+df1['bbb'].values+df1['ccc'].values+df1['ddd'].values", setup="from __main__ import df1",number=10000)
print(t)

运行结果

aaa bbb ccc ddd
0 0 8568 1 0
2.639297500019893
0.6697011000069324
0.0938532000000123

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-孙老师 2021-04-26 18:50
关注
第一种表示Series相加，不是向量化处理，Series相加，会根据索引进行操作，索引相同则数值相加，肯定会比数值相加慢。

向量其实就是一维数组，Numpy数组操作是最快的。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

pandas的向量化处理怎么比普通迭代还慢很多 python 有问必答
2021-04-26 18:23

回答 4 已采纳第一种表示Series相加，不是向量化处理，Series相加，会根据索引进行操作，索引相同则数值相加，肯定会比数值相加慢。向量其实就是一维数组，Numpy数组操作是最快的。
pandas 向量化优化双重for循环 python
2021-03-14 19:22

回答 2 已采纳题主，你的意思是希望找到第s列，以第i行为结尾，满足第j行开始，和大于n的那一个j吗？如果是这样的话，算法运行效率比较慢的原因是，在if df4.sum() >= n的时候，每次计算完sum
求解python打包pandas和tkinter程序启动巨慢 pycharm python 有问必答
2022-02-14 15:21

回答 4 已采纳 exe 文件多大？启动过程，是否载入数据？
python安装pandas太慢_还在抱怨pandas运行速度慢？这几个方法会颠覆你的看法
2020-12-04 10:05

weixin_39951930的博客 Python之所以适合数据分析，是因为它有很多第三方强大的库来协助，pandas就是其中之一。pandas的文档中是这样描述的：“快速，灵活，富有表现力的数据结构，旨在使”关系“或”标记“数据的使用既简单又直观。”我们...
python pandas如果同时改变多列位置 python 有问必答
2022-04-09 22:59

回答 2 已采纳可以用列名列表切片方法一次替换。示例代码如下： import pandas as pd df0=pd.DataFrame([['A','1月',1,100],['B','1月',2,300],['C
python使用pandas处理dataFrame python 数据分析数据挖掘
2022-02-07 14:53

回答 1 已采纳代码很简单，但是写起来像吃了一个苍蝇一样没有成就感。 df['0']=df.temp.apply(lambda x:1 if x==0 else 0) df['1-25']=df.temp.apply
python中用pandas处理数据 flask python 有问必答
2021-03-28 17:14

回答 3 已采纳试下这种方式: 先构造一个姓名和科目的二维表, 然后merge. 可以对缺失值进行填充 import pandas as pd import numpy as np data = pd.rea
pandas 多进程并发与python加速
2024-01-16 14:55

MusicDancing的博客 swifter swifter 是一款用于给使用在 pandas DataFrame 或者 Series 上的 function 进行加速的包，它综合使用了“向量化” 和“并行化”方式。安装： pip install -U pandas # upgrade pandas pip install swifter...
python for 循环向量化优化 python
2021-03-31 14:40

回答 1 已采纳大牛的回答： Idea is get all unique months and pass to merge for cross join with helper column a for all
用Python的pandas部分处理Excel数据 jupyter python 有问必答
2022-10-21 00:09

回答 3 已采纳这篇文章：Python-pandas库读取Excel文件数据的常见错误集合也许有你想要的答案，你可以看看
一文带你斩杀Python之Numpy☀️Pandas全部操作【全网最详细】❗❗❗
2021-09-08 19:43

王小王-123的博客这种工具可用来存储和处理大型矩阵，比Python自身的嵌套列表（nested list structure)结构要高效的多（该结构也可以用来表示矩阵（matrix））。据说NumPy将Python相当于变成一种免费的更强大的MATLAB系统。 ...
Python数据处理之Pandas库
2022-01-11 16:32

En^_^Joy的博客 Series对象是带有索引数据构成的数组，可以作为通用型的Numpy数组，也可以看作特殊的Python字典 import pandas as pd data = pd.Series([0.25,0.5,0.75,1.0]) print(data) '''数据和索引绑定在一起 0 0.25 1 0.50 2...
Pandas进阶筛选和取数操作
2023-04-15 19:24

KF Lai的博客 pandas过程中学习的各种操作技巧。
Python数据清洗——Pandas
2021-07-28 09:19

消失一年的博客文章目录一、Series的定义和使用1.1 Series索引标签的添加1.1.1 创建Series对象时添加1.1.2 建立好Series后用一个新的...Pandas的Index对象1.4 Series的索引和切片1.4.1 数字下标去取1.4.2 标签名去取1.5 Series的.g
没有解决我的问题, 去提问

悬赏问题

¥20 sub地址DHCP问题
¥15 delta降尺度计算的一些细节，有偿
¥15 Arduino红外遥控代码有问题
¥15 数值计算离散正交多项式
¥30 数值计算均差系数编程
¥15 redis-full-check比较两个集群的数据出错
¥15 Matlab编程问题
¥15 训练的多模态特征融合模型准确度很低怎么办
¥15 kylin启动报错log4j类冲突
¥15 超声波模块测距控制点灯，灯的闪烁很不稳定，经过调试发现测的距离偏大

pandas的向量化处理怎么比普通迭代还慢很多

4条回答 默认 最新

悬赏问题

4条回答默认最新