如何对python代码进行优化，以提高运行速度

遇到个代码优化的问题。。想请教下。。这段代码，结构或是哪里该如何优化下，以提高运行速度。。
大致情况先介绍下：
1. 代码需要考虑指定文件的输出---也就是相应数据是否需要计算；代码中的if output1 / output2 in condition，即是用来判断是否需要进行计算；
2. 计算需要分步骤进行。大致是先根据原始数据，计算原始数据的x1值（该步骤已经执行）。再根据x1值，计算相应的x1x2值，和x3值。然后将x1x2和x3拼接起来。
3. 数据量是10W行，为时间数据。。分两种情况进行计算（也就是两种情况的结果输出）。一种是每行时间数据，均要输出一个结果。另一种是对某个字段进行分组，然后根据分组来输出计算结果（比如企业）。
具体代码如下：

t05 = time.time()
#计算x1x2和x3的值（x1值已计算出来）
for i in std_level:
    max_std,min_std,l_1,l_2,l_3,l_4,l_5 = std_level[i][0]  #生成标准的数据表，用于对照取值
    #对原x1的字段的空值填充为0，方便跳过数值0进行数据处理。同时便于后期与目标值比较。
    if output1 in condition: #这个情况，是根据用户需求，进行相应的输出。如用户有需求，则执行下面的代码
        data['%s_x1'%i].fillna(0,inplace =True) 
    if output2 in condition: 
        f_data['%s_x1'%i].fillna(0,inplace =True)
    #定义x1x2的函数
    #x1为原始数据对应的等级，值为1--6（如原数据缺失，则为空值。为便于判断，需将x1的缺失值填充为0）
    #原则是，如x1（数据等级）为空值，则不进行判定（返回空值）。如等级为1或6，单独计算。如等级介于1和6之间，则统一计算。
    def tran_x1x2(x):
        dj = x['%s_x1'%i]
        jc = x[i]
        if dj == 0: 
            return np.NaN  #务必要返回np.NaN，否则返回空字符串None，影响后面x2的计算。
        else:
            if dj not in [1,6]: #根据介于等级1和6之间时的x1x2的计算公式
                up = std_level[i][0][int(dj)]
                dn = std_level[i][0][int(dj)+1]
                return round(dj + (up - jc) / (up -dn),1)
            else:
                if dj == 1: 
                    return 1.0
                else: 
                    return round(dj + (l_5 - jc) / l_5 * 4,1)
    #需事先定义好x1x2的函数，方能进行apply。而x1x2的函数定义，又需要事先对x1填充。。所以需要将条件判断，分开两次重复进行
    #本来考虑可以将条件判断合并到一起。。但是这样会增加重复的代码量，而且不能保证提高速度。
    #我也想用函数的方式来处理，但是不知道如何实现。。具体结构该怎么弄。。。
    if output1 in condition:  
        data['%s_x1x2'%i] = data.apply(tran_x1x2,axis=1)  #生成实时数据的x1x2
    if output2 in condition:
        f_data['%s_x1x2'%i] = f_data.apply(tran_x1x2,axis=1) #生成综合数据的x1x2
    #注意顺序，需先计算x1x2的值，才能计算x3的值
    def tran_x3(x):
        dj = x['%s_x1'%i]
        dj_x1x2 = x['%s_x1x2'%i]
        dj_x2 = (dj_x1x2 - dj) *10  #计算x2的值。不建议单独生成x2字段，否则字段过多，影响调试查看。
        if dj == 0: #等级数据不可能为0，其值原为空值，只是为了便于比较，将空值填充为0处理（第7/9行代码中实现）。
            return np.NaN
        else:
            if dj <= x['TARGET']:  #[‘TARGET’]为目标字段，用于比较
                return 0
            else:
                if dj_x2 == 0:
                    return dj - x['TARGET'] -1
                else:
                    return dj - x['TARGET']

    #新的x3存在空值的情况，需要事先填充
    if output1 in condition: #这个情况，是根据用户需求，进行相应的输出。如用户有需求，则执行下面的代码
        data['%s_x3'%i] = data.apply(tran_x3,axis=1)  #生成实时数据的x3
        data['%s_x3'%i].fillna(-1,inplace =True) #因x3可能为0，空值需填充为-1，以便区分和格式转换
        data['%s_x1x2'%i] = data['%s_x1x2'%i].astype(str)  #转字符格式，方便拼接
        data['%s_x3'%i] = data['%s_x3'%i].astype(int).astype(str) 
        data['%s_x1x2x3'%i] = np.where(data['%s_x3'%i]!= '-1',data['%s_x1x2'%i]+data['%s_x3'%i],np.NaN) #生成单因子标识指数
        data['%s_x1x2x3'%i] = data['%s_x1x2x3'%i].astype(float)  #求X1X2前，需记得将字符串转浮点型格式，否则无法求均值。
    if output2 in condition:
        f_data['%s_x3'%i] = f_data.apply(tran_x3,axis=1) #生成综合数据的x3
        f_data['%s_x3'%i].fillna(-1,inplace=True)
        f_data['%s_x1x2'%i] = f_data['%s_x1x2'%i].astype(str)  #转字符格式，方便拼接
        f_data['%s_x3'%i] = f_data['%s_x3'%i].astype(int).astype(str)
        f_data['%s_x1x2x3'%i] = np.where(f_data['%s_x3'%i]!= '-1',f_data['%s_x1x2'%i] + f_data['%s_x3'%i],np.NaN)
        f_data['%s_x1x2x3'%i] = f_data['%s_x1x2x3'%i].astype(float)
t06 = time.time()
print(t06-t05)

这段代码，我用10W行的数据来跑，用了24秒左右。。
我发现其中比较耗时的就是要输出output1的计算。。。这个就是计算每行数据的结果，计算量可能较大。
个人觉得代码还有较大的提升空间，只是水平有限，实在不知道如何优化。。
求高手指点

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
D720CJM 2019-05-29 19:39
关注
看着有点儿头大啊，一大堆……放弃理解……
不过耗时无非就是for循环里面而已，为何要在for循环里面def呢？有些不明白……
尽量用生成器而不是临时产量的变量来循环处理……
如果要封装功能，可以用类或者函数传参实现啊，这是第一点。
第二点是用线程池……未来函数：from concurrent.futures import ThreadPoolExecutor，如果你需要的是有序的结果，那就用map来提交，如果不注重顺序，那也可以用submit，多线程处理

用参数啊！
apply是可以传入额外参数的
你之所以把def放在for循环里面，应该是一下没搞懂apply函数可以传入额外的参数。

def tran_new(x,i): # 这里进行了改造 dj = x['%s_level'%i] if dj == 0: return np.NaN else: if dj not in [1,6]: up = std_level[i][0][int(dj)] dn = std_level[i][0][int(dj)+1] return round(dj + (up - x[i]) / (up -dn),1) else: if dj == 1: return 1.0 else: return round((l_5 - x[i]) / l_5 * 4,1) for i in std_level: # for循环也进行了改造，主要是apply接受两组参数了，一个是原本的axis=1，另外一个是i，通过args=()的形式来传递 l_1,l_2,l_3,l_4,l_5 = std_level[i][0] data['%s_new'%i] = data.apply(tran_new,axis=1, args=(i,))

终究还是去看了……再次头疼，我不确定上面的代码能否跑得起来，但思路就是这样。请注意，apply是可以传入额外参数的。
DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds)
当然了，以上都还是顺应你的思路来进行……这样也不知道能不能有提升，要看具体结果才知道
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python函数可以提高代码执行速度吗_优化代码，加速Python运行的八大方法
2020-11-24 06:51

weixin_39705069的博客但其实很多时候，Python的效率并没有达到它应有的速度，有一些让它马达开足的小技巧，一起来学习吧！1.避免使用全局变量import mathsize = 10000for x in range（size）：for y in range（size）：z = math.sqrt（x...
python中用函数可以提高代码运行速度吗_为什么Python代码在函数中运行得更快？...
2021-03-17 18:53

weixin_39806288的博客发现如果python代码正常运行，然后在python函数中运行，则在后一种情况下运行速度更快。我想知道为什么python代码在函数中运行得更快。通常发现在python函数中存储局部变量要比全局变量更快。可以解释如下。除了局部...
python中函数可以提高代码执行速度吗,python提高运行效率_10个技巧加快Python运行速度...
2021-04-27 01:25

码语者的博客但是，我们可以使用一些技术来提高Python代码的效率。在本文中，我将向您展示我通常在工作中使用的加速技术。测试环境是Python 3.7，macOS 10.14.6和2.3 GHz Intel Core i5。0.优化原理在深入探讨代码优化的细节...
提升Python代码运行速度的5个技巧
2022-01-04 17:44

赵卓不凡的博客 1. 引言如果有人问你 “什么是最快的编程语言?”，你可能会说"肯定不是Python!...因此，如果熟悉这些内置函数，就可以提高Python代码的性能。一些常用的内置函数有sum()、len()、map()、max()等。
python中函数可以提高代码执行速度吗_为什么Python代码在函数中运行得更快？
2020-11-30 08:27

weixin_39874379的博客 FAST 0 (x) # set local variable 19 JUMP_ABSOLUTE 13 # back to FOR_ITER 通常，当程序运行时，Python会一个接一个地执行每个操作码，跟踪堆栈，并在执行每个操作码后对堆栈帧执行其他检查。操作码预测意味着在...
python提高运行效率_10个技巧加快Python运行速度
2020-11-23 23:46

weixin_39593340的博客但是，我们可以使用一些技术来提高Python代码的效率。在本文中，我将向您展示我通常在工作中使用的加速技术。测试环境是Python 3.7，macOS 10.14.6和2.3 GHz Intel Core i5。0.优化原理在深入探讨代码优化的细节...
Python程序15个提速优化方法
2024-11-19 20:57

闲人编程的博客本文介绍了 15 种 Python 程序提速优化方法，从使用内建函数、优化循环结构、减少内存占用，到多线程、多进程、缓存技术、并行...通过合理的优化策略，能够最大限度地发挥其潜力，从而提高开发效率和程序的运行速度。
使用ImDisk将Python安装到RAM磁盘提高运行速度
2024-08-05 05:00

Dean of NITSC的博客在许多情况下，特别是在需要高性能计算或快速数据访问时，传统的硬盘驱动器可能会成为系统性能的瓶颈。为了提升性能，我们可以将应用程序或开发...本文将介绍如何使用ImDisk将Python安装到RAM磁盘，以提高其运行速度。
10个优化Python代码的小技巧，使代码运行速度提升5倍！
2023-12-12 09:25

Python情报站的博客 Python优化指南：让代码运行速度提高5倍。
提升Python代码性能的六个技巧
2023-03-17 13:48

哈桑和他的Python的博客 hello大家好啊，我是作家桑。本文为大家介绍提升 Python 代码性能的六个技巧，希望大家看完有所收获。
没有解决我的问题, 去提问

如何对python代码进行优化，以提高运行速度

1条回答 默认 最新

1条回答默认最新