python将编号相同的一列按固定值拆分

问题遇到的现象和发生背景

希望将v这一列按照buck这一列进行拆分，同一个buck的量应该为326881602，拆分结果应该为标黄的vol这一列，如果buck的值相同，比如都为1，可以看到D2位置应该填326881602，如果buck都为3，那么对应的v这一列的值的和为326881602，也即D4+D5=326881602。

另外需要注意，对于新的一天，比如2020/1/3，9：31分的buck和2020/1/2的buck同为56，这就需要参考2020/1/2，14：57-15：00的v这一列，标黄的vol这一列是正确的结果，怎么才能得到

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

ENGineer_zlshuo 2022-05-07 16:11

关注

代码写长了一不小心，题主先试试行不行，数据格式没问题是前提，个别细节不懂可以留言

import pandas as pd

df = pd.read_csv('test.csv')
v_idx = list(df.columns).index('v')
df.insert(v_idx+1, column = 'vol', value = '')
b_idx = list(df.columns).index('buck')
df.loc[df['buck'].duplicated(keep = False) == False, 'vol'] = 326881602
df.loc[df['buck'].duplicated(keep = False) == True, 'vol'] = 0
v_set = list(set(df['v']))
b_set = list(set(df['buck']))


def v_checker():
    flag = 0
    for v in v_set:
        part = df.loc[df.v == v]
        check = 0
        for row in range(part.shape[0]):
            check += int(part.iloc[row, v_idx + 1])
        if check != int(v):
            flag += 1
        else:
            flag = flag
    if flag == 0:
        return True
    else:
        return False


def b_checker():
    flag = 0
    for b in b_set:
        part = df.loc[df.buck == b]
        check = 0
        for row in range(part.shape[0]):
            check += int(part.iloc[row, v_idx + 1])
        if check != 326881602:
            flag += 1
        else:
            flag = flag
    if flag == 0:
        return True
    else:
        return False


def v_correct():
    global df
    dfs = []
    for v in v_set:
        part = df.loc[df.v == v]
        check = 0
        for row in range(part.shape[0]):
            check += int(part.iloc[row, v_idx+1])
        if check != int(v):
            if check > int(v):
                over = check - int(v)
                max_row = part.shape[0]-1
                part.iloc[max_row, v_idx+1] -= over
                dfs.append(part)
            elif check < int(v):
                loss = int(v) - check
                min_row = part.shape[0]-1
                part.iloc[min_row, v_idx+1] += loss
                dfs.append(part)
        else:
            dfs.append(part)
    df = dfs[0]
    for index in range(1, len(dfs)):
        add = dfs[index]
        df = pd.concat([df, add])
        df.sort_index(ascending=True, inplace = True)


def b_correct():
    global df
    dfs = []
    for b in b_set:
        part = df.loc[df.buck == b]
        check = 0
        for row in range(part.shape[0]):
            check += int(part.iloc[row, v_idx+1])
        if check != 326881602:
            if check > 326881602:
                over = check - 326881602
                max_row = part.shape[0]-1
                part.iloc[max_row, v_idx+1] -= over
                dfs.append(part)
            elif check < 326881602:
                loss = 326881602 - check
                min_row = part.shape[0]-1
                part.iloc[min_row, v_idx+1] += loss
                dfs.append(part)
        else:
            dfs.append(part)
    df = dfs[0]
    for index in range(1, len(dfs)):
        add = dfs[index]
        df = pd.concat([df, add])
        df.sort_index(ascending=True, inplace = True)


def go():
    try:
        if v_checker() is False or b_checker() is False:
            v_correct()
            b_correct()
            go()
        else:
            df.to_csv('res.csv', index = False)  # 保存结果文件
    except:
        print('出问题了')


go()
print(df)
"""
实现的效果如下：
原数据
    date  time          v  buck
0      1    11  768944800     1
1      1    22  768944800     2
2      1    22  768944800     3
3      1    33  297902500     3
4      1    33  297902500     4
5      1    33  286462900     4
6      1    33  286462900     5
7      1    33  275848000     5
8      1    33  203289200     5
9      1    33  203289200     6
10     1    33  128842212     6

结果数据
    date  time          v        vol  buck
0      1    11  768944800  326881602     1
1      1    22  768944800  326881602     2
2      1    22  768944800  115181596     3
3      1    33  297902500  211700006     3
4      1    33  297902500   86202494     4
5      1    33  286462900  240679108     4
6      1    33  286462900   45783792     5
7      1    33  275848000  275848000     5
8      1    33  203289200    5249810     5
9      1    33  203289200  198039390     6
10     1    33  128842212  128842212     6
"""
"""

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(1条)

报告相同问题？

关注问题

python中DataFrame的列根据固定字符拆分，其他列复制
2024-03-04 13:39

球场最帅的仔的博客有一个df，其中，有一列下有一些数据，是多个字符串用指定字符拼接在一起。
Python办公—Excel按某列列拆分—自由选择sheet以及表头(通用版)
2024-10-23 08:00

小庄-Python办公的博客 Python办公—Excel按某列列拆分—自由选择sheet以及表头
【Python如何将EXCEL拆分】
2024-06-02 22:37

小九不懂SAP的博客然后，脚本遍历这些唯一值，对于每个唯一值，它筛选出原始DataFrame中对应的行，并将这些行保存到一个新的Excel文件中。如果你想要按照行数的固定分割来拆分工作表（例如，每100行一个文件），你可以稍微修改上面的...
python数据分析--pandas,xlwings,openpyxl三种方法，按列值将一个工作表拆分为多个工作表
2025-03-20 11:50

宝山哥哥的博客 python数据分析--pandas,xlwings,openpyxl三种方法将一个工作表拆分为多个工作表
python中将两组数据放在一起按照某一固定顺序shuffle的实例
2020-09-19 01:42

本篇将详细介绍如何在Python中将两组数据按照某一固定顺序进行shuffle操作。首先，我们有两组数据，一组是特征数据`a`，另一组是对应的标签数据`b`。在给出的例子中，`a`是字符列表，`b`是整数列表。为了将这两组...
根据excel中任意一列的列名进行拆分--Python
2022-11-12 18:18

SQTTTTTTT的博客在excel中，根据“状态”进行分割，两种解决方法，一种是拆分保存在各个Sheet表中，另外一种拆分保存在各个文件中。
python拆分excel列_python自动化办公：实现按照一列内容拆分excel
2021-02-04 02:21

Edith在努力的博客卡卡的霍格莫德小镇用python将某一列按照内容分成多个excel我们经常会在工作中遇见，类似下图中的表格，领导要求你将各个部门筛选出，并按照“财务部.xlsx”的格式单独成立一个excel，数据少了还好说，如果数据量大...
python实例64-Python分块拆分txt文件中的数据.rar
2024-03-05 07:21

如果需要处理的数据是以某种结构（如逗号分隔值CSV）存储在txt文件中，可以设定一个固定的块大小，然后按块读取并处理。例如，每次读取1000行： ```python chunk_size = 1000 with open('大文件.txt', 'r') as ...
如何用python将一张excel表按某一列分类为多张表
2022-03-30 18:10

Gamers fei的博客如何用python将一张excel表按某一列分类为多张表
python按某列拆分excel表格_把一张Excel表按照固定列分成不同工作薄的小白方法...
2020-11-24 01:13

weixin_39541681的博客这是结合百度经验和论坛上的资料整理的...第一步将一个工作表按照某一列内容拆分为不同的工作表。用数据透视表的方法要数据比较少，上千条的数据基本上就运转不了。用Python的对知识要求有点高，舍弃；我用VBA的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月6日

python将编号相同的一列按固定值拆分

问题遇到的现象和发生背景

2条回答 默认 最新

问题事件

2条回答默认最新