python正则匹配repdf数据

python正则匹配提取pdf中的数据，数据都在文本表格中，匹配的数据是Cm 1.9<3<3.3，Cmk 8.4<9<9.6,还有Char.Descr. intapple 8999N（有数字和字母），pdf一共4页，每一页的Cm，Cmk和Char.Descr后的数据不同
但是他们中间相隔距离较远，需要提取其后面的数据，数据都在不规则表格中,用group存储

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-05-29 14:26
关注
引自免费微信小程序：皆我百晓生

要从PDF中提取特定格式的数据，我们可以使用Python的PyPDF2库来读取PDF内容，并结合正则表达式进行匹配。然而，由于PDF文件结构复杂且包含图形、图像等元素，直接解析文本可能并不容易。对于复杂的PDF，可能需要借助第三方工具如tabula-py来识别表格。

首先，请确保安装了所需的库：

pip install PyPDF2 tabula-py

接下来是一个基本的示例，展示了如何使用tabula-py来提取表格数据，然后通过正则表达式匹配所需的关键字和数据。这个例子假设所有的数据都在表格中，如果不在表格中，你可能需要探索其他方法来定位这些文本。

import re import tabula # 定义要匹配的模式 patterns = [ r"Cm\s+(\d+\.\d+)<\d+<\d+\.\d+", r"Cmk\s+(\d+\.\d+)<\d+<\d+\.\d+", r"Char\.Descr\..*?(\w+\s+\d+[\w\d]+N)", ] def extract_data(pdf_path): # 使用tabula提取所有表格内容为DataFrame tables = tabula.read_pdf(pdf_path, pages="all") data_dict = {} for table in tables: for i, row in table.iterrows(): for pattern in patterns: match = re.search(pattern, str(row)) if match: key, value = match.groups() if key not in data_dict: data_dict[key] = [] data_dict[key].append(value) return data_dict pdf_path = "your_pdf_file.pdf" data = extract_data(pdf_path) print(data)

将your_pdf_file.pdf替换为你的PDF文件路径。这段代码会读取PDF中的所有表格，对每一行进行正则匹配，找到匹配的模式后将其添加到字典中。字典的键是匹配模式的一部分，值是一列表，存储每一页找到的所有对应值。

注意：这种方法依赖于tabula-py库正确识别表格。如果PDF中的表格结构复杂，可能需要调整正则表达式以适应不同的文本格式，或者尝试其他PDF处理库，如pdfplumber或pdfminer.six。

如果你的PDF中表格不明显或者数据分布非常不规律，那么你可能需要使用OCR（光学字符识别）技术来转换PDF为可搜索的文本，然后再进行分析。在这种情况下，可以考虑使用pytesseract库与Google的Tesseract OCR引擎结合。但这也增加了复杂性，因为OCR结果可能会有误识率。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python 正则表达式匹配字符串中的http链接方法
2021-01-20 04:37

利用Python正则表达式匹配字符串中的http链接。主要难点是用正则表示出http 链接的模式。 import re pattern = re.compile(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*,]|(?:%[0-9a-fA-F][0-9a-fA-F]))+') #...
python使用正则表达式替换匹配成功的组
2020-10-18 23:40

在Python编程语言中，正则表达式被广泛地用于模式匹配、字符串搜索和文本替换等操作。Python通过re模块提供了对正则表达式的支持。在文本处理和数据提取等场景下，正则表达式发挥着重要作用。正则表达式概念起源于...
笔记一Python正则匹配
2025-03-01 13:53

Python作为一门广泛使用的高级编程语言，其标准库中的“re”模块提供了对正则表达式的支持。在进行Python正则匹配时，开发者能够灵活地处理字符串中的各种复杂情况。正则表达式基本语法包括字符集、选择、重复、...
python正则表达式匹配不包含某几个字符的字符串方法
2020-10-16 15:52

本文将分享如何使用Python正则表达式来匹配不包含特定字符集的字符串。首先，我们来看一个基本的正则表达式匹配例子。假设我们要从一个字符串中找出所有以“https?”开头，后面跟着“://”，然后再以“.jpg”、“....
python使用正则表达式匹配字符串开头并打印示例
2020-10-20 16:01

文中还提到了一系列有关Python学习的专题，包括正则表达式的其他用法、数据结构与算法、Socket编程、函数使用技巧、字符串操作、Python入门与进阶教程以及文件与目录操作技巧。这些资源可以帮助读者更全面地掌握...
对Python正则匹配IP、Url、Mail的方法详解
2020-12-23 13:34

'''进行正则匹配ip，加re.IGNORECASE是让结果返回bool型''' pattern=re.match(r'\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$',ip,re.IGNORECASE) if
python正则匹配查询港澳通行证办理进度示例分享
2020-12-25 09:35

分析网址格式为 http://www.gdcrj.com/wsyw/tcustomer/tcustomer.do?&method=find&applyid=身份证号码构造socket请求网页html，利用正则匹配出查询结果”’def gethtmlbyidentityid(identityid): s = socket.socket...
python正则中最短匹配实现代码
2020-09-20 21:24

### Python正则表达式中的最短匹配应用在Python中，正则表达式是一种非常强大的文本处理工具。本文将深入探讨如何使用Python正则表达式实现最短匹配，并通过一个具体的例子来展示这一技巧的实际应用。 #### 正则...
Python正则匹配判断手机号是否合法的方法
2020-09-19 19:33

### Python正则匹配判断手机号是否合法的方法 #### 一、正则表达式的概念与应用正则表达式（Regular Expression）是一种强大的文本处理工具，它能够帮助我们在文本中执行复杂的搜索与替换操作。正则表达式的语法...
编程语言Python正则表达式详解：常用函数与模式匹配在文本处理中的应用
2025-06-13 10:53

适合人群：具有基础编程能力的开发者，特别是对Python感兴趣的学习者。; 使用场景及目标：①掌握正则表达式的基本概念和语法；②学会使用re模块中的常用函数进行字符串匹配和替换操作；③理解正则表达式的修饰符和...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月29日

python正则匹配repdf数据

2条回答 默认 最新

问题事件

2条回答默认最新