爱游夏夏 2022-12-08 17:25 采纳率: 66.7%
浏览 53
已结题

存在一定规律的数据转置和整理

纯excel不高级使用者,因近期需要批量收集信息,用爬虫爬下来了一堆数据,但格式不太理想,为了让后续数据能被用于数据分析,需要进行转置和规范化,希望不吝赐教数据清洗的我
我的解答思路和尝试过的方法:用excel 手动进行转置
我想要达到的结果:通过python 或excel (Power BI) 或tableau 自动化地完成转置,大概有几千个相同格式的数据需要处理,实在无法手动进行。

第一行第一列(即图中的“抚州市”不动)
下面四行:
首先 “转置”( 如图excel ) 到第一行的后面
然后,需要手工删掉
下面的数据,每五行的操作跟之前一样,

详情请看图片和附表:

img

所属省(市)所属税务机关名称失信主体名称纳税人识别号主体违法性质
抚州市资溪县续申药业有限公司91361028MA361AC20康水平虚开增值税专用发票或者虚开用于骗取出口退税、抵扣税款的其他发票
资溪县续申药业有限公司
91361028MA361AC20
康水平
虚开增值税专用发票或者虚开用于骗取出口退税、抵扣税款的其他发票
  • 写回答

2条回答 默认 最新

  • gnn_explorer 2022-12-08 18:50
    关注

    解决如下:

    import pandas as pd
    
    df = pd.read_excel(r'C:\a.xlsx', header=None)
    print('处理之前: \n', df)
    
    result = []
    tmp_list = []
    for index, row in df.iterrows():
        tmp_list.append(row[0])
        if index % 5 == 4:
            result.append(tmp_list)
            tmp_list = []
    
    df = pd.DataFrame(result, columns=['所属省(市)', '所属税务机关名称', '失信主体名称', '纳税人识别号', '主体违法性质'])
    print('处理之后: \n', df)
    df.to_excel(r'C:\result.xlsx', index=False)
    
    

    数据处理之前:

    img

    数据转置处理之后:

    img

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 12月9日
  • 已采纳回答 12月9日
  • 创建了问题 12月8日

悬赏问题

  • ¥20 西门子S7-Graph,S7-300,梯形图
  • ¥50 用易语言http 访问不了网页
  • ¥50 safari浏览器fetch提交数据后数据丢失问题
  • ¥15 matlab不知道怎么改,求解答!!
  • ¥15 永磁直线电机的电流环pi调不出来
  • ¥15 用stata实现聚类的代码
  • ¥15 请问paddlehub能支持移动端开发吗?在Android studio上该如何部署?
  • ¥20 docker里部署springboot项目,访问不到扬声器
  • ¥15 netty整合springboot之后自动重连失效
  • ¥15 悬赏!微信开发者工具报错,求帮改