Djejfnieknf 2024-05-09 20:27 采纳率: 0%
浏览 4

为什么我的PDF提取好字段之后导出表格只有第一行没有下面的信息啊

img

img

img

img

为什么我的PDF提取好字段之后导出表格只有第一行没有下面的信息啊,辛苦各位老板帮忙解答一下哦~

  • 写回答

2条回答 默认 最新

  • 码农阿豪@新空间代码工作室 Java领域优质创作者 2024-05-09 20:27
    关注
    让阿豪来帮你解答,本回答参考chatgpt3.5编写提供,如果还有疑问可以评论或留言
    问题描述: 提取 PDF 中的字段,导出表格时只有第一行没有下面的信息。 问题分析: 此问题可能是因为代码只提取了第一行的信息,并没有进行循环遍历整个 PDF 文件的所有页面,导致只有第一行的信息被提取了。 解决方案: 在代码中添加循环遍历每一页 PDF 内容的代码,将所有页面中的相应字段都提取出来,同时添加到表格中。 示例代码:
    from PyPDF2 import PdfFileReader
    import pandas as pd
    pdf_file = 'test.pdf'
    pdf_reader = PdfFileReader(open(pdf_file, 'rb'))
    num_pages = pdf_reader.getNumPages()
    # 存储提取的信息
    info_list = []
    # 遍历所有页面
    for page in range(num_pages):
        # 获取当前页内容
        current_page = pdf_reader.getPage(page)
        current_page_content = current_page.extractText()
        
        # 提取字段信息
        field1 = ''
        field2 = ''
        field3 = ''
        
        # 将提取到的信息加入列表
        info_list.append([field1, field2, field3])
        
    # 将信息列表转换为 DataFrame 并导出为表格
    df = pd.DataFrame(info_list, columns=['Field1', 'Field2', 'Field3'])
    df.to_excel('result.xlsx', index=False)
    

    以上代码使用 PyPDF2 库提取 PDF 内容,循环遍历每一页并提取需要的字段,最后将提取到的信息存储在列表中,并导出为 Excel 表格。

    评论

报告相同问题?

问题事件

  • 修改了问题 5月9日
  • 创建了问题 5月9日

悬赏问题

  • ¥15 35114 SVAC视频验签的问题
  • ¥15 impedancepy
  • ¥15 在虚拟机环境下完成以下,要求截图!
  • ¥15 求往届大挑得奖作品(ppt…)
  • ¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
  • ¥50 浦育平台scratch图形化编程
  • ¥20 求这个的原理图 只要原理图
  • ¥15 vue2项目中,如何配置环境,可以在打完包之后修改请求的服务器地址
  • ¥20 微信的店铺小程序如何修改背景图
  • ¥15 UE5.1局部变量对蓝图不可见