pandas 计算单格数值的区间，代码如何更高效

原始数据：有一列名称为【时长】，描述了1-100s的时间长度，类型为float

需求内容：再增加一列【时长区间】，用于描述【时长】列每个单元格值的区间，结果样式如下

时长时长区间

0 3.498 [3,4)

1 0.535 (0,1)

2 2.355 [2,3)

3 6.541 [5,8)

4 8.508 [8,10)

现有的代码，当【时长】只有几百或几千行时，执行速度还是挺快的。但实际【时长】数据多达20-50万行，执行时间会非常非常长

import pandas as pd
import time

dict = {
    "时长": {
        0: 3.498,
        1: 0.535,
        2: 2.355,
        3: 6.541,
        4: 8.508,
        5: 0.391,
        6: 1.254,
        7: 0.276,
        8: 12.14,
        9: 0.827,
        10: 1.996,
    }
}

df = pd.DataFrame(dict)
df["时长区间"] = 0

time_s = time.perf_counter()

for x, y in enumerate(df["时长"]):
    if y < 1:
        df.iloc[[x], [1]] = "(0,1)"
    elif y < 2:
        df.iloc[[x], [1]] = "[1,2)"
    elif y < 3:
        df.iloc[[x], [1]] = "[2,3)"
    elif y < 4:
        df.iloc[[x], [1]] = "[3,4)"
    elif y < 5:
        df.iloc[[x], [1]] = "[4,5)"
    elif y < 8:
        df.iloc[[x], [1]] = "[5,8)"
    elif y < 10:
        df.iloc[[x], [1]] = "[8,10)"
    else:
        df.iloc[[x], [1]] = "[10,~)"

time_e = time.perf_counter()

print(df.head())
print(df.shape)

print("耗时：%s s" % ("%0.2f" % (time_e - time_s)))

上述代码是否还有优化的空间，可以让执行速度更快？尤其是【时长】数据多达20-50万行时，谢谢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

python技巧(数据分析及可视化) 2021-03-31 21:33

关注

用pd.cut()方法,代码如下,如果你的对应关系不一样, 可以修改参数list和labels调整

import pandas as pd
import time
dict = {
    "时长": {
        0: 3.498,
        1: 0.535,
        2: 2.355,
        3: 6.541,
        4: 8.508,
        5: 0.391,
        6: 1.254,
        7: 0.276,
        8: 12.14,
        9: 0.827,
        10: 1.996,
    }
}

data = pd.DataFrame(dict)
data['时长区间'] = pd.cut(data['时长'],
                      [0,1,2,3,4,5,8,10,100],  # 数值区间
                      labels = ['(0-1)','[1,2)','[2,3)','[3,4)','[4,5)','[5,8)','[8,10)','[10,~)'], # 标签
                      right=False)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

pandas 计算单格数值的区间，代码如何更高效 python
2021-03-30 14:42

回答 3 已采纳用pd.cut()方法,代码如下,如果你的对应关系不一样, 可以修改参数list和labels调整 import pandas as pd import time dict = { "时长
python/pandas 计算数值信息熵值 python
2023-01-05 17:49

回答 1 已采纳所谓信息熵描述了信息源各可能事件发生的不确定性。试想若某人仅在一家药店购药，则他的行为是确定的；而若在多家药店购药，则存在一定的不确定性，需要通过博主上面给出的公式计算。以上就是对这道题的理解。解题
pandas 如何计算列表的最小差值(语言-python) python
2022-05-12 20:39

回答 1 已采纳大概思路： >>> hos_date = pd.DataFrame({ "hos_name" : [1,1,3,2,3,4,5,6,5,4,6,1], "date"
【Python数据分析】pandas常用基础数据分析代码
2022-04-24 11:26

马哥python说的博客用pandas数据分析老番茄数据。
python pandas表格格式问题，精简代码 python 有问必答
2021-11-04 09:23

回答 1 已采纳在函数random_choice中不用列表添加，直接返回符合条件的值即可，或者用 res[0]取出列表元素，在数据框中列数据中就就会去掉[]了。
Python中pandas怎么实现分组去重统计和求和 python sql
2021-10-26 17:31

回答 3 已采纳 result = order_able.groupby('大区').agg({'数量': 'sum', '金额': 'sum', '用户编码': 'unique', '订单编码': 'uniq
python：pandas计算各项出现次数，怎么输出超过50次的行数据？ python 数据分析
2022-09-23 09:51

回答 2 已采纳 newDf = pd.DataFrame(columns=['New_ID', 'Time', 'positiveVol', 'eleCur', 'KV_result', 'id']) for key
Python使用Pandas计算相关系数
2022-03-21 22:57

whtli的博客问题：给定成分数据，使用Pandas计算各成分之间的相关系数调用函数：pandas.corr()
python pandas如果同时改变多列位置 python 有问必答
2022-04-09 22:59

回答 2 已采纳可以用列名列表切片方法一次替换。示例代码如下： import pandas as pd df0=pd.DataFrame([['A','1月',1,100],['B','1月',2,300],['C
Python3.7怎么安装pandas库啊 python
2021-06-23 00:15

回答 1 已采纳 windows的话命令行输入pip install pandas，前提是把python目录添加到环境变量，安装python的时候有选项可以勾选。linux应该直接pip就可以。
Python pandas python
2022-08-06 13:15

回答 3 已采纳可以参考以下方法，指定表头，然后读取指定的列 import pandas as pd df = pd.read_excel('***.xlsx',header=2,usecols='C,E,G,I,K
python 获取macd数据_在python3下使用pandas计算MACD的源代码
2020-12-08 08:47

weixin_39792472的博客以前在excel里使用表格计算过MACD，上周，花了一天时间查看pandas的帮助和网上其他人的源码，在python3下，自己写了一个计算MACD的源代码。股票数据调用tushare的数据。源码里有详细的注释，可以帮助大家了解如何...
Python Pandas 删除.csv文件的指定行 python
2022-04-09 13:50

回答 2 已采纳 df.drop(df.index[int(linenum) + 1], inplace=True) # 删除第int(linenum) + 1行如果有帮助点一下下采纳
Python安装Pandas库
2022-08-17 23:09

红乘以白的博客 Python安装Pandas库的三种方法
如何利用python中的pandas模块计算环比和同比
2022-03-16 19:55

theskylife的博客在进行数据分析，业务分析时，如何使用pandas计算环比、同比及增长率等指标
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 8月11日

悬赏问题

¥15 Java，消息推送配置
¥15 Java计划序号重编制功能，此功能会对所有序号重新排序，排序后不改变前后置关系。
¥15 关于哈夫曼树应用得到一些问题
¥15 使用sql server语句实现下面两个实验（需要代码和运行结果截图）
¥20 用web解决，要给我一个完整的网页，符合上述的要求
¥20 求个sql server代码和结果的图两道题
¥15 银河麒麟操作系统无法使用U盘
¥100 寻找：光电二极管电路设计服务
¥15 YOLOv5改进后的结构图
¥15 全志v3s怎么设置高速时钟，使用的荔枝派zero开发板，串口2需要921600的波特率

pandas 计算单格数值的区间，代码如何更高效

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新