【Python】针对pdf中不规则表格的数据提取

查找了相关资料，目前python中对pdf表格的抽取主要采用的是pdfplumber、camelot、tabula等，但都是针对完整且相对规范的表格。但对形如下图所示的表格的数据提取，出现了文本表格混排，跨页面表格的衔接等问题，请求大佬指点！

图片说明

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
qq_21804627 2020-12-21 18:17
关注
同问，还有那种表格分别只在页面一边的情况（页面排版是左右两边分开分布），这种有时候读文本内容都困难。。。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

使用python实现pdf表格转为excel表格
2024-09-16 09:45

尽管这一过程可能面临各种挑战，比如PDF格式的复杂性、表格布局的不规则性等，但通过使用合适的库和工具，这些挑战都能被有效解决。在Python社区中，有一些现成的项目和工具可以帮助我们轻松完成这一任务。例如，...
Python一键提取PDF中的表格到Excel.rar
2023-03-10 22:02

在实际应用中，可能还需要处理一些特殊情况，比如表格的布局复杂、旋转、不规则等问题，这可能需要更复杂的逻辑来确保数据的准确提取。记住，始终测试并验证提取的数据，确保其完整性与原始PDF中的表格一致。
通过Python的pdfplumber库提取pdf中表格数据
2023-05-28 18:33

空空star的博客通过Python的pdfplumber库提取pdf中表格数据。
python实例50-Python一键提取PDF中的表格到Excel.rar
2024-02-17 09:32

2. **pandas库**：`pandas`是Python中处理结构化数据的核心库，提供了DataFrame数据结构，非常适合存储和操作表格数据。在将PDF中的表格转换为Excel时，我们会先将PDF文本解析成合适的数据结构，然后利用`pandas....
基于python，提取pdf中涉及到的相关表格
2022-06-27 09:01

除了基本的表格提取，`pdfplumber`还支持自定义解析规则，以适应不同格式的PDF文档。例如，你可以设置单元格的边界检测阈值，或者指定特定的列宽和行高。这使得该库在处理各种复杂PDF表格时具有很好的灵活性。结合...
python 批量从PDF中提取表格（使用yield语法迭代数据）
2023-03-04 16:37

搬码工琪老师的博客【代码】python 批量从PDF中提取表格（使用yield语法迭代数据）
python实现PDF中表格转化为Excel的方法
2020-12-17 04:26

4. **pdfplumber**: 这是我们关注的重点，它提供了一种简单且灵活的方式来处理PDF中的表格，包括获取每个文本字符、矩阵、行的详细信息，以及进行表格提取和可视化调试。现在，我们深入了解一下`pdfplumber`库： ...
Python一键提取PDF中的表格到Excel.zip
2023-12-27 16:06

本教程将介绍如何使用Python高效地从PDF文档中提取表格内容并将其保存为Excel格式，以便进行进一步的数据分析和处理。首先，我们需要了解两个关键的Python库：PyPDF2和pandas。PyPDF2是用于读取、操作和合并PDF...
python读取pdf表格_Python使用Tabula提取PDF表格数据
2020-11-24 11:10

weixin_39586353的博客今天遇到一个批量读取pdf文件中表格数据的需求，样式大体是以下这样：python读取PDF无非就是三种方式（我所了解的），pdfminer、pdf2htmlEX 和 Tabula。综合考虑后，选择了最后一种。下面对三种方式分别介绍：pdf...
python 自动办公- Python一键提取PDF中的表格到Excel.zip
2024-02-06 22:36

本教程将重点介绍如何使用Python将PDF中的表格提取到Excel文件中，实现一键自动化操作。首先，我们需要了解两个关键的Python库：`PyPDF2` 和 `tabula-py`。`PyPDF2` 是用来读取PDF文档的，而 `tabula-py` 则专门...
没有解决我的问题, 去提问

【Python】针对pdf中不规则表格的数据提取

1条回答 默认 最新

1条回答默认最新