爱游夏夏 2022-12-08 17:25 采纳率: 66.7%
浏览 53
已结题

存在一定规律的数据转置和整理

纯excel不高级使用者,因近期需要批量收集信息,用爬虫爬下来了一堆数据,但格式不太理想,为了让后续数据能被用于数据分析,需要进行转置和规范化,希望不吝赐教数据清洗的我
我的解答思路和尝试过的方法:用excel 手动进行转置
我想要达到的结果:通过python 或excel (Power BI) 或tableau 自动化地完成转置,大概有几千个相同格式的数据需要处理,实在无法手动进行。

第一行第一列(即图中的“抚州市”不动)
下面四行:
首先 “转置”( 如图excel ) 到第一行的后面
然后,需要手工删掉
下面的数据,每五行的操作跟之前一样,

详情请看图片和附表:

img

所属省(市)所属税务机关名称失信主体名称纳税人识别号主体违法性质
抚州市资溪县续申药业有限公司91361028MA361AC20康水平虚开增值税专用发票或者虚开用于骗取出口退税、抵扣税款的其他发票
资溪县续申药业有限公司
91361028MA361AC20
康水平
虚开增值税专用发票或者虚开用于骗取出口退税、抵扣税款的其他发票
  • 写回答

2条回答 默认 最新

  • gnn_explorer 2022-12-08 18:50
    关注

    解决如下:

    import pandas as pd
    
    df = pd.read_excel(r'C:\a.xlsx', header=None)
    print('处理之前: \n', df)
    
    result = []
    tmp_list = []
    for index, row in df.iterrows():
        tmp_list.append(row[0])
        if index % 5 == 4:
            result.append(tmp_list)
            tmp_list = []
    
    df = pd.DataFrame(result, columns=['所属省(市)', '所属税务机关名称', '失信主体名称', '纳税人识别号', '主体违法性质'])
    print('处理之后: \n', df)
    df.to_excel(r'C:\result.xlsx', index=False)
    
    

    数据处理之前:

    img

    数据转置处理之后:

    img

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 12月9日
  • 已采纳回答 12月9日
  • 创建了问题 12月8日

悬赏问题

  • ¥30 STM32 INMP441无法读取数据
  • ¥100 求汇川机器人IRCB300控制器和示教器同版本升级固件文件升级包
  • ¥15 用visualstudio2022创建vue项目后无法启动
  • ¥15 x趋于0时tanx-sinx极限可以拆开算吗
  • ¥500 把面具戴到人脸上,请大家贡献智慧
  • ¥15 任意一个散点图自己下载其js脚本文件并做成独立的案例页面,不要作在线的,要离线状态。
  • ¥15 各位 帮我看看如何写代码,打出来的图形要和如下图呈现的一样,急
  • ¥30 c#打开word开启修订并实时显示批注
  • ¥15 如何解决ldsc的这条报错/index error
  • ¥15 VS2022+WDK驱动开发环境