为什么我的PDF提取好字段之后导出表格只有第一行没有下面的信息啊,辛苦各位老板帮忙解答一下哦~
2条回答 默认 最新
关注 让阿豪来帮你解答,本回答参考chatgpt3.5编写提供,如果还有疑问可以评论或留言
问题描述: 提取 PDF 中的字段,导出表格时只有第一行没有下面的信息。 问题分析: 此问题可能是因为代码只提取了第一行的信息,并没有进行循环遍历整个 PDF 文件的所有页面,导致只有第一行的信息被提取了。 解决方案: 在代码中添加循环遍历每一页 PDF 内容的代码,将所有页面中的相应字段都提取出来,同时添加到表格中。 示例代码:from PyPDF2 import PdfFileReader import pandas as pd pdf_file = 'test.pdf' pdf_reader = PdfFileReader(open(pdf_file, 'rb')) num_pages = pdf_reader.getNumPages() # 存储提取的信息 info_list = [] # 遍历所有页面 for page in range(num_pages): # 获取当前页内容 current_page = pdf_reader.getPage(page) current_page_content = current_page.extractText() # 提取字段信息 field1 = '' field2 = '' field3 = '' # 将提取到的信息加入列表 info_list.append([field1, field2, field3]) # 将信息列表转换为 DataFrame 并导出为表格 df = pd.DataFrame(info_list, columns=['Field1', 'Field2', 'Field3']) df.to_excel('result.xlsx', index=False)
以上代码使用 PyPDF2 库提取 PDF 内容,循环遍历每一页并提取需要的字段,最后将提取到的信息存储在列表中,并导出为 Excel 表格。
解决 无用评论 打赏 举报
悬赏问题
- ¥15 35114 SVAC视频验签的问题
- ¥15 impedancepy
- ¥15 在虚拟机环境下完成以下,要求截图!
- ¥15 求往届大挑得奖作品(ppt…)
- ¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
- ¥50 浦育平台scratch图形化编程
- ¥20 求这个的原理图 只要原理图
- ¥15 vue2项目中,如何配置环境,可以在打完包之后修改请求的服务器地址
- ¥20 微信的店铺小程序如何修改背景图
- ¥15 UE5.1局部变量对蓝图不可见