pipilang3220119 2022-03-21 15:19 采纳率: 58.3%
浏览 138
已结题

python panda 如何生成汇总表?

数据:
项目 日期
A 20220318
A 20220319
A 20220320
B 20220318
B 20220319
C 20220317
C 20220318
C 20220320
D 20220320

结果1:

项目重复次数日期 1日期2日期3日期4
A3202203182022031920220320
B22022031820220319
C3202203172022031820220320
D120220320

结果2:

项目重复次数日期状态
A320220318, 20220319 ,20220320连续三日
B220220318 , 20220319非连续三日
C320220317,20220318,20220320非连续三日
D120220320非连续三日
  • 写回答

1条回答 默认 最新

  • 陈年椰子 2022-03-21 15:31
    关注

    只对这个数据,还是要通用? 如果通用的话, 出现 这种日期, 20220325 20220301 , 如何处理?

    我加了部分数据,为了测试效果

    import pandas as pd
    data_str = '''A 20220318
    A 20220325
    A 20220301
    A 20220319
    A 20220320
    B 20220318
    B 20220319
    C 20220317
    C 20220318
    C 20220320
    D 20220320'''
    
    data_lst = [ n.split(" ") for n in data_str.split("\n")]
    
    # 建立分析测试数据
    df1 = pd.DataFrame(data_lst,columns=['项目','日期'], dtype=str)
    
    #求重复次数
    df2 = df1.groupby('项目', as_index=False).count()
    df2.columns= ['项目','重复次数']
    
    
    #求日期数量
    df_rq = df1.groupby('日期', as_index=False).count()
    rq_lst = [d[0] for d in df_rq.iterrows()]
    rq_lst.sort()
    
    
    # 处理过程
    
    # 日期行转列
    df1['data'] = df1['日期']
    df4  = df1.set_index(['项目','日期']).unstack()
    
    # 合并成 结果1
    df5 = pd.merge(df2, df4, how='inner', on='项目')
    col_name = ['项目','重复次数']
    for n in range(1,len(rq_lst)+1):
        col_name.append("日期{}".format(n))
    df5.columns=col_name
    # print(df5)
    
    
    import datetime
    def T(td):
        td1 =  datetime.datetime.strptime(td, '%Y%m%d').date()
        td = datetime.datetime.strftime(td1 + datetime.timedelta(days=1), '%Y%m%d')
    
        return td
    
    
    def get_date_lst(data):
        dt_str = []
        for d in data:
            if len(str(d)) == 8:
                dt_str.append(d)
        return ",".join(dt_str)
    
    
    def get_date_status(data):
        dt_lst = data[0].split(',')
        i = 1
        dt = dt_lst[0]
        for d in dt_lst[1:]:
            if d == T(dt):
                i = i + 1
                dt = d
            else:
                i = 1
                dt = d
            if i >= 3:
                return "连续三日"
        if i >=3:
            return "连续三日"
        else:
            return "非连续三日"
    
    
    
    # 结果2
    df6 = pd.DataFrame.copy(df5,deep=True)
    df6['日期'] = df6.apply(lambda x:get_date_lst(x), axis=1)
    df6 = df6[['项目','重复次数','日期']]
    df6['状态'] = df6[['日期']].apply(lambda x:get_date_status(x) , axis=1 )
    
    
    print("数据")
    print(df1)
    print("结果1")
    print(df5)
    print("结果2")
    print(df6)
    
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录

报告相同问题?

问题事件

  • 系统已结题 3月30日
  • 已采纳回答 3月22日
  • 修改了问题 3月21日
  • 修改了问题 3月21日
  • 展开全部

悬赏问题

  • ¥40 求一款能支持ios15以上的屏蔽越狱插件。比较好用的
  • ¥15 C++ QT对比内存字符(形式不定)
  • ¥30 C++第三方库libiconv 远程安装协助
  • ¥15 https://github.com/youlaitech/vue3-element-admin/blob/master/src/store/modules/user.ts 这2句代码如何理解
  • ¥15 duilib开发文本字串超过长度显示
  • ¥20 mysql的.ibd文件为啥那么多
  • ¥15 C++中采用栈和BFS算法求解迷宫问题
  • ¥15 关于#java#的问题:这是跳转失败出现的界面这是哪个出现问题的servlet(开发工具-ide)
  • ¥15 EBS R12费用采购跨月冲销
  • ¥15 python中用mplfinance如何做到多股同列?