爱游夏夏 2022-12-08 17:25 采纳率: 66.7%
浏览 53
已结题

存在一定规律的数据转置和整理

纯excel不高级使用者,因近期需要批量收集信息,用爬虫爬下来了一堆数据,但格式不太理想,为了让后续数据能被用于数据分析,需要进行转置和规范化,希望不吝赐教数据清洗的我
我的解答思路和尝试过的方法:用excel 手动进行转置
我想要达到的结果:通过python 或excel (Power BI) 或tableau 自动化地完成转置,大概有几千个相同格式的数据需要处理,实在无法手动进行。

第一行第一列(即图中的“抚州市”不动)
下面四行:
首先 “转置”( 如图excel ) 到第一行的后面
然后,需要手工删掉
下面的数据,每五行的操作跟之前一样,

详情请看图片和附表:

img

所属省(市)所属税务机关名称失信主体名称纳税人识别号主体违法性质
抚州市资溪县续申药业有限公司91361028MA361AC20康水平虚开增值税专用发票或者虚开用于骗取出口退税、抵扣税款的其他发票
资溪县续申药业有限公司
91361028MA361AC20
康水平
虚开增值税专用发票或者虚开用于骗取出口退税、抵扣税款的其他发票
  • 写回答

2条回答 默认 最新

  • gnn_explorer 2022-12-08 18:50
    关注

    解决如下:

    import pandas as pd
    
    df = pd.read_excel(r'C:\a.xlsx', header=None)
    print('处理之前: \n', df)
    
    result = []
    tmp_list = []
    for index, row in df.iterrows():
        tmp_list.append(row[0])
        if index % 5 == 4:
            result.append(tmp_list)
            tmp_list = []
    
    df = pd.DataFrame(result, columns=['所属省(市)', '所属税务机关名称', '失信主体名称', '纳税人识别号', '主体违法性质'])
    print('处理之后: \n', df)
    df.to_excel(r'C:\result.xlsx', index=False)
    
    

    数据处理之前:

    img

    数据转置处理之后:

    img

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 12月9日
  • 已采纳回答 12月9日
  • 创建了问题 12月8日

悬赏问题

  • ¥15 微信公众平台自制会员卡可以通过收款码收款码收款进行自动积分吗
  • ¥15 随身WiFi网络灯亮但是没有网络,如何解决?
  • ¥15 gdf格式的脑电数据如何处理matlab
  • ¥20 重新写的代码替换了之后运行hbuliderx就这样了
  • ¥100 监控抖音用户作品更新可以微信公众号提醒
  • ¥15 UE5 如何可以不渲染HDRIBackdrop背景
  • ¥70 2048小游戏毕设项目
  • ¥20 mysql架构,按照姓名分表
  • ¥15 MATLAB实现区间[a,b]上的Gauss-Legendre积分
  • ¥15 delphi webbrowser组件网页下拉菜单自动选择问题