为什么我的PDF提取好字段之后导出表格只有第一行没有下面的信息啊

为什么我的PDF提取好字段之后导出表格只有第一行没有下面的信息啊，辛苦各位老板帮忙解答一下哦~

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
码农阿豪@新空间代码工作室 Java领域优质创作者 2024-05-09 20:27
关注
让阿豪来帮你解答，本回答参考chatgpt3.5编写提供，如果还有疑问可以评论或留言
问题描述：提取 PDF 中的字段，导出表格时只有第一行没有下面的信息。问题分析：此问题可能是因为代码只提取了第一行的信息，并没有进行循环遍历整个 PDF 文件的所有页面，导致只有第一行的信息被提取了。解决方案：在代码中添加循环遍历每一页 PDF 内容的代码，将所有页面中的相应字段都提取出来，同时添加到表格中。示例代码：
from PyPDF2 import PdfFileReader import pandas as pd pdf_file = 'test.pdf' pdf_reader = PdfFileReader(open(pdf_file, 'rb')) num_pages = pdf_reader.getNumPages() # 存储提取的信息 info_list = [] # 遍历所有页面 for page in range(num_pages): # 获取当前页内容 current_page = pdf_reader.getPage(page) current_page_content = current_page.extractText() # 提取字段信息 field1 = '' field2 = '' field3 = '' # 将提取到的信息加入列表 info_list.append([field1, field2, field3]) # 将信息列表转换为 DataFrame 并导出为表格 df = pd.DataFrame(info_list, columns=['Field1', 'Field2', 'Field3']) df.to_excel('result.xlsx', index=False)

以上代码使用 PyPDF2 库提取 PDF 内容，循环遍历每一页并提取需要的字段，最后将提取到的信息存储在列表中，并导出为 Excel 表格。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

jeecgboot的导出excel,让某个字段导出时不显示 spring boot 前端后端
2022-01-20 13:55

回答 2 已采纳你的这个导出时前端做的还是后端做好的导出；前端做的话，可以自己配置导出字段的，后端的就让后台去配置
为什么这个dict提取后面的字段会报错 python
2021-03-30 20:48

回答 1 已采纳你在图一里面打印下print(type(a))，如果是dict，那你这么取就没问题，但是看报错，你的a类型是个string，那就不能这么取
为什么我要修改字段的所在位置，我想要把表格中的xb提到xh的前面但是他报错为什么呀？ mysql
2022-04-15 16:58

回答 1 已采纳调整位置，只有2两种用法：1、如果要调整到第一列直接first 即可，2、如果要调整到某列后，那就 after 某列按你的需求，把命令后面的xh 删掉即可。
[ 全部搞定 - 发票导出表格 ] PDF发票提取到表，图片发票提取到表格，扫描件发票提取到表格，全电发票PDF，全电发票扫描件识别导出EXCEL表格
2024-08-21 08:19

帅气的咕嘎的博客最近很多朋友说找PDF发票提取Excel表格的，找到了图片识别Excel表格的，有的找图片识别Excel表格的，找到了PDF发票提取表格的，所以就很难搞，还有的说都想要今天一篇文章，全部搞定所有发票【电子发票，图片扫描...
poi导出excel，由于导出的excel的好几行对应的是库表的同一个字段 java 后端
2022-09-13 08:52

回答 4 已采纳怎么语无伦次的，到底是行还是列反正无非就是判断一下数据库里的值到底是什么，然后把内容填到对应的格子里去呗
为什么我的第二行数据会覆盖第一行数据 java
2018-03-09 07:25

回答 5 已采纳 row 好像始终是0
请教！使用spyder连接MySQL数据库，提取一个字段显示不完整是什么情况T_T database mysql python
2022-03-21 20:37

回答 2 已采纳因为你这个工具的控制台只会显示最近的300条记录,超过300条就把前面的顶掉了。如果想校验代码准确性的话,可以把print改成输出到文件,这样记录就不会被"吞"了
Python 实战 | 表格中多信息字段的拆分方法（一行变多行）
2024-08-23 22:03

企研数据的博客本期文章介绍了一种使用 Python 将表格数据进行纵向拆分展开的方法
ORACLE clob字段导出 oracle sql 数据库
2022-10-10 17:31

回答 1 已采纳如果内容少的话可以转为varchar SELECT dbms_lob.substr(A.aa, 4000,1) FROM a 如果多的话，可以使用toad工具试试，自带分隔的
在表格最后加一行合计，计算列表中数据的和 react.js 前端
2021-12-31 15:01

回答 4 已采纳 <script> var data = [{ name: 26.3 }, { name: 26.3
mysql数据表按照某个字段分类导出到表 mysql oracle sql
2020-12-26 18:04

回答 2 已采纳 select * from table_name group by 字段
【Java】采用 Tabula 技术对 PDF 文件内表格进行数据提取
2023-09-13 16:37

Kida 的技术小屋的博客某天项目组来了个需求说需要提取 PDF 文件中数据作为数据沉淀使用，这是因为第三方系统不提供数据接口所以只能够出此下策。
【MySQL】请问为什么字段长度(4)不见了呢？ mysql sql 数据库
2022-03-26 22:37

回答 3 已采纳找到原因了，MySQL在 8.0.17 版本开始，就不会显示如 TINYINT , SMALLINT , MEDIUMINT , INT , BIGINT 这些数据类型的字段长度。MySQL官网上是这
Python批量提取PDF表格并保存为Excel
2023-08-22 13:59

Python_魔力猿的博客想要提取 PDF 的数据，保存到 Excel 中。虽然是可以直接利用 WPS 将 PDF 文件输出成 Excel，但这个功能是收费的，而且如果将大量 PDF转 Excel 的时候，手动去输出是非常耗时的。我们可以利用 Python 的第三方工具库 ...
Python 实战 | 从 PDF 中提取（框线不全的）表格
2024-03-05 17:08

企研数据的博客 camelot-py 使用了一种名为 Lattice 的算法，基于文本的近似排列来解析表，由此实现无框线（或框线不全）表格的解析。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 5月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月9日

悬赏问题

¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 在虚拟机环境下完成以下，要求截图！
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见

为什么我的PDF提取好字段之后导出表格只有第一行没有下面的信息啊

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新