pipilang3220119 2022-03-21 15:19 采纳率: 58.3%
浏览 138
已结题

python panda 如何生成汇总表?

数据:
项目 日期
A 20220318
A 20220319
A 20220320
B 20220318
B 20220319
C 20220317
C 20220318
C 20220320
D 20220320

结果1:

项目重复次数日期 1日期2日期3日期4
A3202203182022031920220320
B22022031820220319
C3202203172022031820220320
D120220320

结果2:

项目重复次数日期状态
A320220318, 20220319 ,20220320连续三日
B220220318 , 20220319非连续三日
C320220317,20220318,20220320非连续三日
D120220320非连续三日
  • 写回答

1条回答 默认 最新

  • 陈年椰子 2022-03-21 15:31
    关注

    只对这个数据,还是要通用? 如果通用的话, 出现 这种日期, 20220325 20220301 , 如何处理?

    我加了部分数据,为了测试效果

    import pandas as pd
    data_str = '''A 20220318
    A 20220325
    A 20220301
    A 20220319
    A 20220320
    B 20220318
    B 20220319
    C 20220317
    C 20220318
    C 20220320
    D 20220320'''
    
    data_lst = [ n.split(" ") for n in data_str.split("\n")]
    
    # 建立分析测试数据
    df1 = pd.DataFrame(data_lst,columns=['项目','日期'], dtype=str)
    
    #求重复次数
    df2 = df1.groupby('项目', as_index=False).count()
    df2.columns= ['项目','重复次数']
    
    
    #求日期数量
    df_rq = df1.groupby('日期', as_index=False).count()
    rq_lst = [d[0] for d in df_rq.iterrows()]
    rq_lst.sort()
    
    
    # 处理过程
    
    # 日期行转列
    df1['data'] = df1['日期']
    df4  = df1.set_index(['项目','日期']).unstack()
    
    # 合并成 结果1
    df5 = pd.merge(df2, df4, how='inner', on='项目')
    col_name = ['项目','重复次数']
    for n in range(1,len(rq_lst)+1):
        col_name.append("日期{}".format(n))
    df5.columns=col_name
    # print(df5)
    
    
    import datetime
    def T(td):
        td1 =  datetime.datetime.strptime(td, '%Y%m%d').date()
        td = datetime.datetime.strftime(td1 + datetime.timedelta(days=1), '%Y%m%d')
    
        return td
    
    
    def get_date_lst(data):
        dt_str = []
        for d in data:
            if len(str(d)) == 8:
                dt_str.append(d)
        return ",".join(dt_str)
    
    
    def get_date_status(data):
        dt_lst = data[0].split(',')
        i = 1
        dt = dt_lst[0]
        for d in dt_lst[1:]:
            if d == T(dt):
                i = i + 1
                dt = d
            else:
                i = 1
                dt = d
            if i >= 3:
                return "连续三日"
        if i >=3:
            return "连续三日"
        else:
            return "非连续三日"
    
    
    
    # 结果2
    df6 = pd.DataFrame.copy(df5,deep=True)
    df6['日期'] = df6.apply(lambda x:get_date_lst(x), axis=1)
    df6 = df6[['项目','重复次数','日期']]
    df6['状态'] = df6[['日期']].apply(lambda x:get_date_status(x) , axis=1 )
    
    
    print("数据")
    print(df1)
    print("结果1")
    print(df5)
    print("结果2")
    print(df6)
    
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录

报告相同问题?

问题事件

  • 系统已结题 3月30日
  • 已采纳回答 3月22日
  • 修改了问题 3月21日
  • 修改了问题 3月21日
  • 展开全部

悬赏问题

  • ¥17 pro*C预编译“闪回查询”报错SCN不能识别
  • ¥15 微信会员卡接入微信支付商户号收款
  • ¥15 如何获取烟草零售终端数据
  • ¥15 数学建模招标中位数问题
  • ¥15 phython路径名过长报错 不知道什么问题
  • ¥15 深度学习中模型转换该怎么实现
  • ¥15 Stata外部命令安装问题求帮助!
  • ¥15 从键盘随机输入A-H中的一串字符串,用七段数码管方法进行绘制。提交代码及运行截图。
  • ¥15 TYPCE母转母,插入认方向
  • ¥15 如何用python向钉钉机器人发送可以放大的图片?