为什么数据提取不完整pdfminer

1.用pdfminer提取数据，打印出来有些数据没有提取到，是什么原因呢
2.后续想生成excel文件，但是无法识别table，另外，生成出来的文件怎么切割到每一个单元格呢

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-06-07 09:07
关注
引自免费微信小程序：皆我百晓生

针对您的问题，我会分两部分进行解答：首先解决PDF数据提取不完整的问题，然后处理Excel文件创建与数据写入。

问题1：PDF数据提取不完整

在您提供的代码中，似乎出现了混淆。您尝试从text变量中提取生产指令号，但在循环中使用了未定义的table变量。这可能是导致某些数据未被正确提取的原因。为了解决这个问题，我们需要确保正则表达式匹配的是正确的字符串，并且在正确的地方使用提取结果。

这里是一个修正后的版本，它将提取所有生产指令号并将其存储在一个列表中，同时会处理缺失值的情况：

import re from pdfminer.high_level import extract_text from pdfminer.layout import LAParams # 提取PDF中的文本信息 with open('外协-汇鼎（299215.5).pdf', 'rb') as file: text = extract_text(file, laparams=LAParams(line_margin=0.5)) # 增加行间距参数，提高提取准确率 # 定义正则表达式 regex = r"生产指令号：(.*?)(?:\n|$)" # 使用非贪婪匹配，并考虑换行符作为结束符 # 提取生产指令号 xinyongcodes = re.findall(regex, text) # 打印提取的结果 for i, code in enumerate(xinyongcodes, start=1): if code.strip(): # 过滤掉空白项 print(f"第{i}个生产指令号：{code.strip()}")

这段代码首先增加了行间距参数laparams=LAParams(line_margin=0.5)，这有助于提高PDF文本的提取准确性。然后，在正则表达式中使用了非贪婪匹配(.*?)，以防止因贪婪匹配而错过下一个匹配项。最后，通过检查提取的每个生产指令号是否为空白，过滤掉了无效的条目。

问题2：生成Excel文件并写入数据

在修复了PDF数据提取后，我们可以继续处理生成Excel文件的部分。以下是修改后的代码，用于将提取的数据写入Excel文件，并确保每个元素都在单独的单元格内：

import re from pdfminer.high_level import extract_text from pdfminer.layout import LAParams import openpyxl # 提取PDF中的文本信息 with open('外协-汇鼎（299215.5).pdf', 'rb') as file: text = extract_text(file, laparams=LAParams(line_margin=0.5)) # 定义正则表达式 regex = r"生产指令号：(.*?)(?:\n|$)" xinyongcodes = re.findall(regex, text) # 创建一个新的Excel工作簿 workbook = openpyxl.Workbook() sheet = workbook.active # 写入数据到Excel row_num = 1 for code in xinyongcodes: if code.strip(): sheet.cell(row=row_num, column=1, value=code.strip()) row_num += 1 # 保存Excel文件 workbook.save(filename='luomiqi1.xlsx')

这个版本的代码创建了一个新的Excel工作簿，然后遍历提取的生产指令号，并将它们分别写入到单独的单元格中。每提取一个生产指令号，就会自动跳转到下一行。最后，保存Excel文件到指定的位置。

请注意，这个示例仅针对提取生产指令号这一列数据。如果您有其他列需要提取，可以按照类似的方法添加更多的正则表达式和逻辑。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

批量提取PDF指定页面为图片.zip
2025-05-17 08:47

对于批量操作，可能需要借助Python、JavaScript等编程语言中的PDF处理库，如PyPDF2、PDFMiner等，来编写自动化脚本。在脚本编写过程中，需要考虑到提取过程的效率和准确度，包括对错误处理机制的设计，以便在发生...
PDFMiner.six-Python pdf 提取工具
2024-09-30 00:11

PDFMiner.six是Python编程语言的一个库，专门用于从PDF文档中提取信息。它提供了一套工具，让用户能够轻松地从PDF文件中提取文本内容、布局信息以及元数据等。这个库可以视为PDFMiner工具的继承者，后者是一个广泛...
python使用pdfminer解析pdf文件的方法示例
2020-09-19 20:08

总的来说，PDFMiner为Python开发者提供了一个强大且灵活的工具，用于处理PDF文件中的文本和布局信息。无论是简单的文本抽取还是复杂的PDF分析，PDFMiner都能胜任。在实际项目中，根据需求调整和扩展上述代码，可以...
python 使用pdfminer3k 读取PDF文档的例子
2020-09-18 18:03

在当前数字化时代，对PDF文件进行解析和提取数据是一个常见的需求，Python作为一门强大的编程语言，拥有众多的第三方库来帮助开发者实现这一目标。pdfminer3k便是其中之一，它是一个纯Python编写的PDF解析库，主要...
使用pdfminer提取PDF文件中的文字
2020-11-27 20:23

生信修炼手册的博客欢迎关注”生信修炼手册”!和word文档一样，pdf文件也拥有强大的排版功能。对于pdf的编程操作而言，分为读和写两大类，其中读是相对简单的一种，比如读出pdf文件中的文字，写是比较难的...
Python提取PDF大纲指南[源码]
2025-11-16 08:49

本文旨在详细阐述使用Python编程语言以及pdfminer库来提取PDF文档大纲的有效手段。PDF大纲，又称为书签，通常用于展示文档的结构化概览，它能够反映文档的层次关系和导航结构。对于用户来说，了解如何操作和提取这些...
基于Python与C语言混合的EngineerShovel英文PDF内容提取与整理设计源码
2024-10-01 06:17

本项目“基于Python与C语言混合的EngineerShovel英文PDF内容提取与整理设计源码”就是这种趋势下的产物，它将两种编程语言的优势相结合，以实现更高效、更准确的数据处理功能。该项目的主要目的是从英文PDF文档中...
通过AI提取PDF文件的文本内容
2026-02-27 20:10

通过人工智能技术使用Python编程语言提取PDF文件的文本内容是一个涉及多种技术和工具的复杂过程。从解析PDF文件到提取文本，再到进行后续的文本处理和分析，每一步都要求开发人员具备相应的技术能力。同时，合理的...
PDFMiner终极指南：Python PDF解析与文本提取完全教程
2025-10-16 08:01

尚学红Vandal的博客 PDFMiner是一个强大的Python PDF解析库，专门用于从PDF文档中提取文本、字体信息和布局数据。无论你是处理中文、日文还是韩文文档，这个开源工具都能帮你轻松搞定PDF文本提取任务。 PDFMiner作为Python中最受欢迎的...
Python批量提取PDF文件中文本的脚本
2020-09-20 17:19

标题中的“Python批量提取PDF文件中文本的脚本”指的是使用Python编程语言编写的一个程序，其功能是自动处理多个PDF文件，从中提取出文本内容。这个脚本对于那些需要处理大量PDF文档，例如数据挖掘、文本分析或者...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月7日

为什么数据提取不完整pdfminer

2条回答 默认 最新

问题事件

2条回答默认最新