喵喵494 2021-08-01 21:53 采纳率: 33.3%
浏览 165
已结题

python批量pdf转excel,多喝个list无法转为excel数据

我提取所有的PDF中的表格,然后选择需要的数据,存放到excel。 但是现在我把需要的数据遍历出来了,类型为多组的list。存放到excel时,只有最后一组list的数据

img

  • 写回答

2条回答 默认 最新

  • CSDN专家-HGJ 2021-08-01 22:19
    关注

    to_excel()函数在每次循环中都写入一次,会覆盖写入,结果就是最后一组的数据。如果要获取全部的,可以在循环中用append方法,写成一个整的数据框,然后在循环外用to_excel写入。

    import pdfplumber
    import pandas as pd
    path = 'F:\data_pro'
    import os
    fs=[a for a in os.listdir(path) if a.endswith('.pdf')]
    df=pd.DataFrame()
    for f in fs[:3]:    
        with pdfplumber.open(os.path.join(path,f)) as pdf:
            for page in pdf.pages:
                for table in page.extract_tables():
                    data=pd.DataFrame(table)
                    if len(data)!=0:
                        df=df.append(data,ignore_index=False)
    df.to_excel(os.path.join(path, f'merge_tbl.xlsx'), index=False)
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 8月10日
  • 已采纳回答 8月2日
  • 修改了问题 8月1日
  • 修改了问题 8月1日
  • 展开全部

悬赏问题

  • ¥15 linux驱动,linux应用,多线程
  • ¥20 我要一个分身加定位两个功能的安卓app
  • ¥15 基于FOC驱动器,如何实现卡丁车下坡无阻力的遛坡的效果
  • ¥15 IAR程序莫名变量多重定义
  • ¥15 (标签-UDP|关键词-client)
  • ¥15 关于库卡officelite无法与虚拟机通讯的问题
  • ¥15 目标检测项目无法读取视频
  • ¥15 GEO datasets中基因芯片数据仅仅提供了normalized signal如何进行差异分析
  • ¥100 求采集电商背景音乐的方法
  • ¥15 数学建模竞赛求指导帮助