pipilang3220119 2022-03-21 15:19 采纳率: 58.3%
浏览 138
已结题

python panda 如何生成汇总表?

数据:
项目 日期
A 20220318
A 20220319
A 20220320
B 20220318
B 20220319
C 20220317
C 20220318
C 20220320
D 20220320

结果1:

项目重复次数日期 1日期2日期3日期4
A3202203182022031920220320
B22022031820220319
C3202203172022031820220320
D120220320

结果2:

项目重复次数日期状态
A320220318, 20220319 ,20220320连续三日
B220220318 , 20220319非连续三日
C320220317,20220318,20220320非连续三日
D120220320非连续三日
  • 写回答

1条回答 默认 最新

  • 陈年椰子 2022-03-21 15:31
    关注

    只对这个数据,还是要通用? 如果通用的话, 出现 这种日期, 20220325 20220301 , 如何处理?

    我加了部分数据,为了测试效果

    import pandas as pd
    data_str = '''A 20220318
    A 20220325
    A 20220301
    A 20220319
    A 20220320
    B 20220318
    B 20220319
    C 20220317
    C 20220318
    C 20220320
    D 20220320'''
    
    data_lst = [ n.split(" ") for n in data_str.split("\n")]
    
    # 建立分析测试数据
    df1 = pd.DataFrame(data_lst,columns=['项目','日期'], dtype=str)
    
    #求重复次数
    df2 = df1.groupby('项目', as_index=False).count()
    df2.columns= ['项目','重复次数']
    
    
    #求日期数量
    df_rq = df1.groupby('日期', as_index=False).count()
    rq_lst = [d[0] for d in df_rq.iterrows()]
    rq_lst.sort()
    
    
    # 处理过程
    
    # 日期行转列
    df1['data'] = df1['日期']
    df4  = df1.set_index(['项目','日期']).unstack()
    
    # 合并成 结果1
    df5 = pd.merge(df2, df4, how='inner', on='项目')
    col_name = ['项目','重复次数']
    for n in range(1,len(rq_lst)+1):
        col_name.append("日期{}".format(n))
    df5.columns=col_name
    # print(df5)
    
    
    import datetime
    def T(td):
        td1 =  datetime.datetime.strptime(td, '%Y%m%d').date()
        td = datetime.datetime.strftime(td1 + datetime.timedelta(days=1), '%Y%m%d')
    
        return td
    
    
    def get_date_lst(data):
        dt_str = []
        for d in data:
            if len(str(d)) == 8:
                dt_str.append(d)
        return ",".join(dt_str)
    
    
    def get_date_status(data):
        dt_lst = data[0].split(',')
        i = 1
        dt = dt_lst[0]
        for d in dt_lst[1:]:
            if d == T(dt):
                i = i + 1
                dt = d
            else:
                i = 1
                dt = d
            if i >= 3:
                return "连续三日"
        if i >=3:
            return "连续三日"
        else:
            return "非连续三日"
    
    
    
    # 结果2
    df6 = pd.DataFrame.copy(df5,deep=True)
    df6['日期'] = df6.apply(lambda x:get_date_lst(x), axis=1)
    df6 = df6[['项目','重复次数','日期']]
    df6['状态'] = df6[['日期']].apply(lambda x:get_date_status(x) , axis=1 )
    
    
    print("数据")
    print(df1)
    print("结果1")
    print(df5)
    print("结果2")
    print(df6)
    
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录

报告相同问题?

问题事件

  • 系统已结题 3月30日
  • 已采纳回答 3月22日
  • 修改了问题 3月21日
  • 修改了问题 3月21日
  • 展开全部

悬赏问题

  • ¥20 西门子S7-Graph,S7-300,梯形图
  • ¥50 用易语言http 访问不了网页
  • ¥50 safari浏览器fetch提交数据后数据丢失问题
  • ¥15 matlab不知道怎么改,求解答!!
  • ¥15 永磁直线电机的电流环pi调不出来
  • ¥15 用stata实现聚类的代码
  • ¥15 请问paddlehub能支持移动端开发吗?在Android studio上该如何部署?
  • ¥20 docker里部署springboot项目,访问不到扬声器
  • ¥15 netty整合springboot之后自动重连失效
  • ¥15 悬赏!微信开发者工具报错,求帮改