喵喵494 2021-08-01 21:53 采纳率: 33.3%
浏览 165
已结题

python批量pdf转excel,多喝个list无法转为excel数据

我提取所有的PDF中的表格,然后选择需要的数据,存放到excel。 但是现在我把需要的数据遍历出来了,类型为多组的list。存放到excel时,只有最后一组list的数据

img

  • 写回答

2条回答 默认 最新

  • CSDN专家-HGJ 2021-08-01 22:19
    关注

    to_excel()函数在每次循环中都写入一次,会覆盖写入,结果就是最后一组的数据。如果要获取全部的,可以在循环中用append方法,写成一个整的数据框,然后在循环外用to_excel写入。

    import pdfplumber
    import pandas as pd
    path = 'F:\data_pro'
    import os
    fs=[a for a in os.listdir(path) if a.endswith('.pdf')]
    df=pd.DataFrame()
    for f in fs[:3]:    
        with pdfplumber.open(os.path.join(path,f)) as pdf:
            for page in pdf.pages:
                for table in page.extract_tables():
                    data=pd.DataFrame(table)
                    if len(data)!=0:
                        df=df.append(data,ignore_index=False)
    df.to_excel(os.path.join(path, f'merge_tbl.xlsx'), index=False)
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 8月10日
  • 已采纳回答 8月2日
  • 修改了问题 8月1日
  • 修改了问题 8月1日
  • 展开全部

悬赏问题

  • ¥200 总是报错,能帮助用python实现程序实现高斯正反算吗?有偿
  • ¥15 对于squad数据集的基于bert模型的微调
  • ¥15 为什么我运行这个网络会出现以下报错?CRNN神经网络
  • ¥20 steam下载游戏占用内存
  • ¥15 CST保存项目时失败
  • ¥15 树莓派5怎么用camera module 3啊
  • ¥20 java在应用程序里获取不到扬声器设备
  • ¥15 echarts动画效果的问题,请帮我添加一个动画。不要机器人回答。
  • ¥15 Attention is all you need 的代码运行
  • ¥15 一个服务器已经有一个系统了如果用usb再装一个系统,原来的系统会被覆盖掉吗