Dick_不周 2023-03-01 14:45 采纳率: 66.7%
浏览 54
已结题

PYTHON PDF解析如何跨页解析表格

#描述遇到的问题
最近在用 pdfplumber 解析PDF数据时遇到解析表格不全的问题
代码

import pandas as pd
import pdfplumber
import re
import PyPDF2
path=r'./新版征信PDF.pdf'
coding='utf-8'
def extract_content(pdf_path):
    # 内容提取,使用 pdfplumber 打开 PDF,用于提取文本
    with pdfplumber.open(pdf_path) as pdf_file:
        # 使用 PyPDF2 打开 PDF 用于提取图片
        pdf_image_reader = PyPDF2.PdfReader(open(pdf_path, "rb"))
        content = ''
        for i in range(len(pdf_file.pages)):
            page_text = pdf_file.pages[i]
            # page.extract_text()函数即读取文本内容
            page_content = page_text.extract_text()    ###当页提取完的所有表格文本
            tables = page_text.extract_table()       #### 当页所有表格
            for i1 in range(len(tables)):
                tables[i1] = list(filter(None, tables[i1]))       #### 过滤空值
            if i ==3 :
                print(tables)
                print('-----------------------')
            if i == 4 :
                print(tables)
extract_content(path)

效果
第四页解析至末尾

img

第五页解析时跳过剩余表格了

img

原始文件 :

img

有什么办法可以把这种跨页的表格也解析完吗?

  • 写回答

2条回答 默认 最新

  • Web Security Loop 2023-03-01 15:04
    关注

    将跨页表格的内容合并在一起。先定义了一个函数 extract_tables,它打开 PDF 文件并提取所有页面中的表格内容。然后循环遍历每一页,并使用 extract_tables() 方法提取每一页中的表格。如果表格不为空,则将其添加到表格列表中。在添加表格之前,检查该表格的列数是否与前一个表格的列数相同,如果相同,则将当前表格添加到前一个表格的末尾,否则将其视为新表格并将其添加到表格列表的末尾。

    
    import pandas as pd
    import pdfplumber
    
    def extract_tables(pdf_path):
        with pdfplumber.open(pdf_path) as pdf_file:
            tables = []
            for page in pdf_file.pages:
                page_tables = page.extract_tables()
                for table in page_tables:
                    if table:
                        if tables and len(table[0]) == len(tables[-1][0]):
                            tables[-1] += table
                        else:
                            tables.append(table)
        return tables
    
    tables = extract_tables('example.pdf')
    df = pd.DataFrame(tables[0][1:], columns=tables[0][0])
    print(df.head())
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 3月10日
  • 已采纳回答 3月2日
  • 创建了问题 3月1日

悬赏问题

  • ¥15 微信会员卡等级和折扣规则
  • ¥15 微信公众平台自制会员卡可以通过收款码收款码收款进行自动积分吗
  • ¥15 随身WiFi网络灯亮但是没有网络,如何解决?
  • ¥15 gdf格式的脑电数据如何处理matlab
  • ¥20 重新写的代码替换了之后运行hbuliderx就这样了
  • ¥100 监控抖音用户作品更新可以微信公众号提醒
  • ¥15 UE5 如何可以不渲染HDRIBackdrop背景
  • ¥70 2048小游戏毕设项目
  • ¥20 mysql架构,按照姓名分表
  • ¥15 MATLAB实现区间[a,b]上的Gauss-Legendre积分