PYTHON PDF解析如何跨页解析表格

#描述遇到的问题
最近在用 pdfplumber 解析PDF数据时遇到解析表格不全的问题
代码

import pandas as pd
import pdfplumber
import re
import PyPDF2
path=r'./新版征信PDF.pdf'
coding='utf-8'
def extract_content(pdf_path):
    # 内容提取，使用 pdfplumber 打开 PDF，用于提取文本
    with pdfplumber.open(pdf_path) as pdf_file:
        # 使用 PyPDF2 打开 PDF 用于提取图片
        pdf_image_reader = PyPDF2.PdfReader(open(pdf_path, "rb"))
        content = ''
        for i in range(len(pdf_file.pages)):
            page_text = pdf_file.pages[i]
            # page.extract_text()函数即读取文本内容
            page_content = page_text.extract_text()    ###当页提取完的所有表格文本
            tables = page_text.extract_table()       #### 当页所有表格
            for i1 in range(len(tables)):
                tables[i1] = list(filter(None, tables[i1]))       #### 过滤空值
            if i ==3 :
                print(tables)
                print('-----------------------')
            if i == 4 :
                print(tables)
extract_content(path)

效果
第四页解析至末尾

第五页解析时跳过剩余表格了

原始文件：

有什么办法可以把这种跨页的表格也解析完吗？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Web Security Loop 2023-03-01 15:04
关注
将跨页表格的内容合并在一起。先定义了一个函数 extract_tables，它打开 PDF 文件并提取所有页面中的表格内容。然后循环遍历每一页，并使用 extract_tables() 方法提取每一页中的表格。如果表格不为空，则将其添加到表格列表中。在添加表格之前，检查该表格的列数是否与前一个表格的列数相同，如果相同，则将当前表格添加到前一个表格的末尾，否则将其视为新表格并将其添加到表格列表的末尾。

import pandas as pd import pdfplumber def extract_tables(pdf_path): with pdfplumber.open(pdf_path) as pdf_file: tables = [] for page in pdf_file.pages: page_tables = page.extract_tables() for table in page_tables: if table: if tables and len(table[0]) == len(tables[-1][0]): tables[-1] += table else: tables.append(table) return tables tables = extract_tables('example.pdf') df = pd.DataFrame(tables[0][1:], columns=tables[0][0]) print(df.head())
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

PYTHON PDF解析如何跨页解析表格 python
2023-03-01 14:45

回答 2 已采纳将跨页表格的内容合并在一起。先定义了一个函数 extract_tables，它打开 PDF 文件并提取所有页面中的表格内容。然后循环遍历每一页，并使用 extract_tables() 方法提取每一页
python beautifulsoup 解析html无法获得全部html代码 python
2021-01-04 15:04

回答 3 已采纳因为这个div里面的内容是用ajax动态加载的，而用request获取的是网页的源代码（就是“右键菜单->查看网页源代码”的内容），不包含ajax动态加载的内容。所以要找到ajax加载数据的
Python网络爬虫中json解析失败 json python 有问必答爬虫
2022-02-26 20:51

回答 2 已采纳这个接口返回的是jsonp数据，不是json，要获取text替换掉回调函数名称和前后的括号后才是json数据
Python 提取 PDF 中的表格数据
2021-12-18 22:54

achi010的博客 PDF 中的表格数据，使用 Python 提取，使用的框架是 pdfplumber 或 camelot 。
python怎么解析这种网页代码 python
2019-11-20 17:45

回答 1 已采纳正则试试 jieguo = re.search("\d+-\d\d-\d\d”,html)
Python爬虫 BeautifulSoup解析网页爬取内容为None python 有问必答
2021-08-31 14:07

回答 2 已采纳你抓的频率太快，IP被墙了
python爬虫解析html的一个问题 python
2019-04-18 22:45

回答 2 已采纳看上去这些内容是网页本来就有的，爬虫代码没有问题。你可以用正则表达式自己再过滤下。这段内容前面似乎有很多连续的换行，可以作为特征。
Python机器学习项目开发实战_可视化数据_编程案例解析实例详解课程教程.pdf
2023-05-06 08:33

数据可视化是机器学习的核心，利用它有助于制定正确的策略来理解数据。数据的视觉表示帮助我们选择正确的算法。...如果想查找一个特定的测量，可以用表格表示。这一章将讨论各种场景下最合适的可视化方式。
python编程解决问题 python 有问必答
2021-06-09 20:56

回答 2 已采纳 import random a=[] sum=0 max=0 min=1000 for i in range(20): a.append(random.randint(1,999))
求解！python可以处理Mac OS的Numbers表格吗？ python
2020-12-30 21:13

回答 2 已采纳 numbers可以export成csv，然后用pandas就可以导入成DataFrame了，再转numpy啥的就是各展神通了
python爬虫如何解析到$0里的内容 python 有问必答
2021-08-29 16:20

回答 1 已采纳解析不到要么xpath没有写正确，要么是该元素是js动态加载。查看一下requests.get()到得的网页代码，可使用bs4对节点标签解析试试。
Python 快速合并PDF表格转换输出CSV文件
2024-01-04 22:11

Hann Yang的博客单位的刷脸考勤机后台系统做得比较差，只能导出每个部门的出勤统计表pdf，近期领导要看所有部门的考勤数据，于是动手快速写了个合并pdf并输出csv文件的脚本
Python批量处理Excel表格，缩放打印所有列调整为一页，如何实现？ python
2021-11-26 16:20

回答 1 已采纳 ws.ws.sheet_properties.pageSetUpPr.fitToPage=True #加入句代码后问题解决 ws.page_setup.fitToWidth=True ws.p
python使用pdfplumber从pdf文件中获取表格信息
2024-01-19 11:29

weixin_39772782的博客 python使用pdfplumber从pdf文件中获取表格信息，
Python编程--使用PyPDF解析PDF文件中的元数据
2022-06-29 17:39

Bruce_Liuxiaowei的博客作为一种文件里非常明显可见的对象，元数据可以存在于文档、电子表格、图片、音频和视频文件中。创建这些文件的应用程序可能会把文档的作者、创建和修改时间、可能的更新版本和注释这类详细信息存储下来。例如，手机...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月1日

悬赏问题

¥20 sim800c模块 at指令及平台
¥15 stm32开发clion时遇到的编译问题
¥15 lna设计源简并电感型共源放大器
¥15 如何用Labview在myRIO上做LCD显示？(语言-开发语言)
¥15 Vue3地图和异步函数使用
¥15 C++ yoloV5改写遇到的问题
¥20 win11修改中文用户名路径
¥15 win2012磁盘空间不足,c盘正常，d盘无法写入
¥15 用土力学知识进行土坡稳定性分析与挡土墙设计
¥70 PlayWright在Java上连接CDP关联本地Chrome启动失败,貌似是Windows端口转发问题

PYTHON PDF解析如何跨页解析表格

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新