Dick_不周 2023-03-01 14:45 采纳率: 66.7%
浏览 54
已结题

PYTHON PDF解析如何跨页解析表格

#描述遇到的问题
最近在用 pdfplumber 解析PDF数据时遇到解析表格不全的问题
代码

import pandas as pd
import pdfplumber
import re
import PyPDF2
path=r'./新版征信PDF.pdf'
coding='utf-8'
def extract_content(pdf_path):
    # 内容提取,使用 pdfplumber 打开 PDF,用于提取文本
    with pdfplumber.open(pdf_path) as pdf_file:
        # 使用 PyPDF2 打开 PDF 用于提取图片
        pdf_image_reader = PyPDF2.PdfReader(open(pdf_path, "rb"))
        content = ''
        for i in range(len(pdf_file.pages)):
            page_text = pdf_file.pages[i]
            # page.extract_text()函数即读取文本内容
            page_content = page_text.extract_text()    ###当页提取完的所有表格文本
            tables = page_text.extract_table()       #### 当页所有表格
            for i1 in range(len(tables)):
                tables[i1] = list(filter(None, tables[i1]))       #### 过滤空值
            if i ==3 :
                print(tables)
                print('-----------------------')
            if i == 4 :
                print(tables)
extract_content(path)

效果
第四页解析至末尾

img

第五页解析时跳过剩余表格了

img

原始文件 :

img

有什么办法可以把这种跨页的表格也解析完吗?

  • 写回答

2条回答 默认 最新

  • Web Security Loop 2023-03-01 15:04
    关注

    将跨页表格的内容合并在一起。先定义了一个函数 extract_tables,它打开 PDF 文件并提取所有页面中的表格内容。然后循环遍历每一页,并使用 extract_tables() 方法提取每一页中的表格。如果表格不为空,则将其添加到表格列表中。在添加表格之前,检查该表格的列数是否与前一个表格的列数相同,如果相同,则将当前表格添加到前一个表格的末尾,否则将其视为新表格并将其添加到表格列表的末尾。

    
    import pandas as pd
    import pdfplumber
    
    def extract_tables(pdf_path):
        with pdfplumber.open(pdf_path) as pdf_file:
            tables = []
            for page in pdf_file.pages:
                page_tables = page.extract_tables()
                for table in page_tables:
                    if table:
                        if tables and len(table[0]) == len(tables[-1][0]):
                            tables[-1] += table
                        else:
                            tables.append(table)
        return tables
    
    tables = extract_tables('example.pdf')
    df = pd.DataFrame(tables[0][1:], columns=tables[0][0])
    print(df.head())
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 3月10日
  • 已采纳回答 3月2日
  • 创建了问题 3月1日

悬赏问题

  • ¥20 sim800c模块 at指令及平台
  • ¥15 stm32开发clion时遇到的编译问题
  • ¥15 lna设计 源简并电感型共源放大器
  • ¥15 如何用Labview在myRIO上做LCD显示?(语言-开发语言)
  • ¥15 Vue3地图和异步函数使用
  • ¥15 C++ yoloV5改写遇到的问题
  • ¥20 win11修改中文用户名路径
  • ¥15 win2012磁盘空间不足,c盘正常,d盘无法写入
  • ¥15 用土力学知识进行土坡稳定性分析与挡土墙设计
  • ¥70 PlayWright在Java上连接CDP关联本地Chrome启动失败,貌似是Windows端口转发问题