pandas 向量化优化双重for循环

我用pandas 写了个sumbars，二次for循环，感觉效率很慢，需要用向量化优化一下，麻烦各位看看


def sumbars(df, s, n):
#s表示列名
    start = time()
    df2 = df[s].copy()
    # df2.loc[0]=1000
    df['sumbars'] = 0
    for i in range(len(df)):
        df3 = df2[:i + 1]
        l = len(df3)
        for j in range(l):
            # if i>=8:
            #     print()
            df4 = df3[l - j - 1:]
            if df4.sum() >= n:
                df.loc[i, 'sumbars'] = j + 1
                # df5=df[['trade_date',s,'sumbars']]
                break

    stop = time()
    global sumbarstime
    sumbarstime = sumbarstime + stop - start
    return df['sumbars']

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
ProfSnail 2021-03-14 20:01
关注
题主，你的意思是希望找到第s列，以第i行为结尾，满足第j行开始，和大于n的那一个j吗？

如果是这样的话，算法运行效率比较慢的原因是，在if df4.sum() >= n的时候，每次计算完sum(0:i+1)之后，又重新计算一次sum(1:i+1)，再计算sum(2:i+1)，再计算sum(3:i+1)，没有充分利用上一次得到的计算结果。这样的运算之后需要计算1+2+3+...+i+1,是O(n方)级别的。在加上外层的循环，总的时间复杂度是O(n^3).

你可以计算第一次sum(0:i+1)之后，每次减去a[0],a[1],a[2]。。。这样总的时间复杂度就降低为O(n^2)级别的了。

def sumbars(df,s,n): #s表示列名 start = time() sdata = np.array(df[s]) sdata = np.flipud(sdata) l = len(sdata) sumbars = np.zeros(l) for i in range(l): cumsum = np.cumsum(sdata[i:]) k = np.argmax(cumsum>=n) if k != 0: sumbars[l-i-1] = k+1 stop = time() print(stop-start) global sumbarstime sumbarstime = sumbarstime + stop - start sumbars.astype(int) df['sumbars'] = sumbars # df.to_csv("my.csv") # print(df['sumbars']) return df['sumbars']

更进一步，这个allSum也可以不用每个i都计算一次。只需要每次增加就行。

def sumbars(df, s, n): #s表示列名 start = time() df['sumbars'] = 0 allSum = 0 for i in range(len(df)): allSum += df[s].iloc[i] eachSum = allSum for j in range(i+1): if eachSum >= n: df.loc[i, 'sumbars'] = j + 1 break eachSum -= df[s].iloc[j] stop = time() global sumbarstime sumbarstime = sumbarstime + stop - start return df['sumbars']

另外，导致题主之前代码运行比较慢的原因，也可能是多次对df进行拷贝导致的。当DataFrame较大的时候，拷贝也会占用一定时间。

如果我对题主代码的意思理解有偏差，也请评论或私信告诉我。

========

和题主沟通后，题主的意思是找到最后一个符合大于等于n的行下标，同时使用numpy进行优化。优化后的代码如下。

def sumbars(df, s, n): start = time() sdata = np.array(df[s]) sdata = np.flipud(sdata) l = len(sdata) sumbars = np.zeros(l) for i in range(l): cumsum = np.cumsum(sdata[i:]) k = np.argmax(cumsum>=n) if k != 0: sumbars[l-i-1] = k+1 stop = time() print(stop-start) global sumbarstime sumbarstime = sumbarstime + stop - start sumbars.astype(int) df['sumbars'] = sumbars # df.to_csv("my.csv") # print(df['sumbars']) return df['sumbars']
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

Python嵌套循环
2025-11-30 12:59

咖啡の猫的博客 Python嵌套循环
Python循环嵌套全解析：告别低效代码，这些技巧让你事半功倍！
2025-04-12 08:39

信息科技云课堂的博客你是否在数据处理时写过这样的代码？本文将用5分钟带你解锁循环嵌套的高阶玩法，文末更有性能优化秘籍！
17、高性能计算中的多进程与向量化技术
2025-10-02 01:40

http9protocoller的博客文章通过具体代码示例，对比了单线程与多进程的性能差异，阐述了向量化在替代显式循环方面的优势，并提出了原子与分子的抽象概念以优化任务划分。此外，还详细讲解了多进程引擎的设计与实现，包括作业分组、异步调用...
【Python数据分析300个实用技巧】293.效率与技巧合集之代码效率黑科技：用向量化替代循环
2025-05-10 17:58

精通代码大仙的博客记住：每个循环都在消耗CPU的生命，每次向量化都在延长你的发际线。保持对效率的极致追求，但也要懂得——最好的优化，有时是换个思路重新开始。“代码未动，矩阵先行”，愿你的编程之路既有性能的飙升，更有思维的...
【Python数据分析300个实用技巧】110.性能优化与工具链之代码优化秘籍：用Numba加速循环代码
2025-04-27 09:28

精通代码大仙的博客编程世界没有银弹，但Numba绝对是你性能优化武器库中...是否已经尝试过向量化运算？如果答案都是Yes，那么是时候祭出Numba这把神器了。代码优化之路永无止境，但每一次性能突破带来的成就感，都是我们持续前行的动力。
Python数据分析与挖掘实战总结
2021-02-05 14:12

GoAI的博客 for 循环 s = 0 for k in range(101): #1-100 s = s + k print s # 函数 def add2(x): return x+2 print add2(1) def add2(x=0, y=0): return [x+2, y+2] #返回列表 def add3(x, y): return x+3, y+3 #双重返回 a,b ...
Python量化交易从小白到大神.pdf
2024-03-07 11:09

- **Pandas_TA库介绍**：Python库，提供丰富的技术分析功能。 - **常见指标**：如MACD、RSI、Bollinger Bands等。 - **应用场景**：辅助策略制定，如趋势追踪、超买超卖判断等。 #### 8. 时间序列预测 - **深度学习...
Python 金融编程第二版（二）
2024-06-09 20:39

绝不原创的飞龙的博客原文：annas-archive.org/md5/d2f94e...尽管 Python 解释器本身已经带来了丰富的数据结构，但 NumPy 和其他库以有价值的方式添加了这些数据结构。本章组织如下：数据数组本节详细讨论了数组的概念，并说明了在 Pytho
超全Pandas指南：数据处理分析，看这一篇就够了！
2025-12-23 09:56

11128_xixi的博客 Pandas是Python数据科学的基石工具，掌握它就意味着你能：✅ 高效处理各种格式的原始数据✅ 快速完成数据清洗、转换等前置工作✅ 实现复杂的数据分析与统计建模✅ 为机器学习项目准备高质量的训练数据。
python 使用矢量化替换循环
2023-01-05 12:00

T1.Faker的博客矢量化是在数据集上实现 (NumPy) 数组操作的技术。...下面我将用一些示例，分别使用python 循环和矢量化实现，看下能够帮助您节省出多少时间。就是把能数学运算的数据（int、float）放到numpy的数组中处理。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 8月19日

pandas 向量化优化双重for循环

2条回答 默认 最新

问题事件

2条回答默认最新