python怎么处理在提取pdf中的表格跨页问题

_求解怎么处理在提取pdf中的表格跨页问题
用chatgpt跑的代码总解决不了。。
以下是代码：

import pdfplumber
import os
import re
import pandas as pd

# 创建一个新的 DataFrame 以保存提取的数据
data = {
    '时间': [],
    '基金公司': [],
    '产品名称': [],
    '投资reits名称': [],
    '持有份额': [],
    '公允价值': [],
    '占基金总净值比例（%）': []
}

# 设置 PDF 文件夹路径
pdf_folder_path = '/Users/xueminchun/Desktop/中泰Reits行研实习/汇添富FOF季报'

# 处理每个 PDF 文件
for pdf_file_name in os.listdir(pdf_folder_path):
    if pdf_file_name.endswith('.pdf'):
        pdf_file_path = os.path.join(pdf_folder_path, pdf_file_name)

        # 打开 PDF 文件
        with pdfplumber.open(pdf_file_path) as pdf:
            # 处理每一页
            for page_number in range(len(pdf.pages)):
                current_page = pdf.pages[page_number]
                text = current_page.extract_text()

                # 1. 提取“时间”列表
                match_time = re.search(r'2023年第[34]季度报告', text)
                if match_time:
                    data['时间'].append(match_time.group())
                else:
                    data['时间'].append(None)

                # 2. 提取“基金公司”列表
                match_fund_company = re.search(r'基金管理人：\s*(\S+)', text)
                if match_fund_company:
                    data['基金公司'].append(match_fund_company.group(1))
                else:
                    data['基金公司'].append(None)

                # 3. 提取“产品名称”列表
                lines = text.split('\n')
                for i, line in enumerate(lines):
                    if 'FOF' in line:
                        product_name_match = re.search(r'^(.*?FOF)', line)
                        product_name = product_name_match.group(1).strip() if product_name_match else None
                        data['产品名称'].append(product_name)
                        break
                else:
                    data['产品名称'].append(None)

                # 处理“6.1.1”部分的数据提取
                if "6.1.1" in text:
                    tables = current_page.extract_tables()
                    for table in tables:
                        for row in table[1:]:  # 跳过表头
                            # 确保行数据长度一致，不足的部分用空值填充
                            while len(row) < 6:
                                row.append("")  # 使用空字符串填充不足的部分
                            data['投资reits名称'].append(row[2])
                            data['持有份额'].append(row[3])
                            data['公允价值'].append(row[4])
                            data['占基金总净值比例（%）'].append(row[5])

# 将最终的数据保存为 DataFrame
df = pd.DataFrame(data)

print(df)

# 保存 DataFrame 到 Excel 文件
excel_path = 'extracted_data.xlsx'
df.to_excel(excel_path, index=False)

print(f'提取的数据已保存到 {excel_path}')

有的pdf中的表格是跨页的
如图：

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
GISer Liu 2024-03-13 00:53
关注
该回答引用自GPT-3.5,由博主GISer Liu编写：

根据你提供的代码和问题描述，处理提取 PDF 中跨页表格的问题需要一些额外的处理。通常情况下，跨页的表格在 PDF
中可能被拆分成多个部分，需要将这些部分组合起来处理。以下是解决这个问题的思路和方案：

解决思路：

检测跨页表格： 在处理每一页时，检查当前页面是否包含表格内容，如果是，则需要判断该表格是否跨页。
跨页表格处理： 如果表格跨页，需要将跨页的部分合并到同一个表格中，以便后续提取数据。
表格数据提取： 通过 PDF 解析库提取表格数据，并将数据存储到 DataFrame 中。
解决方案：

1. 检测跨页表格：
在处理每一页时，可以检查页面中是否包含表格内容。如果检测到表格内容，需要判断表格是否跨页。
pythonCopy code
# 检测当前页面是否包含表格内容 if current_page.find_tables(): # 处理跨页表格 # 在这里实现跨页表格处理的代码

2. 跨页表格处理：
跨页表格可能会被拆分成多个部分，需要将这些部分组合成完整的表格。可以通过判断表格的位置和大小来确定是否为同一个表格的不同部分。
pythonCopy code
# 获取当前页面的所有表格 tables = current_page.extract_tables() # 判断是否存在跨页表格 if len(tables) > 1: # 处理跨页表格，将多个部分合并成完整的表格 complete_table = [] for table in tables: complete_table.extend(table) else: # 当前页面只有一个表格，直接使用即可 complete_table = tables[0]

3. 表格数据提取：
对于完整的表格数据，可以按照原有的逻辑提取数据，并将数据存储到 DataFrame 中。
pythonCopy code
# 处理完整的表格数据提取 for row in complete_table[1:]: # 跳过表头 # 提取数据并存储到 DataFrame 中

总结：
以上是处理提取 PDF
中跨页表格的思路和解决方案。通过检测跨页表格、跨页表格处理和表格数据提取，可以有效解决这个问题。根据以上方案，你可以在原有代码的基础上进行修改，实现跨页表格的正确提取。如果在实现过程中遇到问题，欢迎继续咨询。

如果该回答解决了您的问题，请采纳！如果没有，请参考以下方案进行修订
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何通过python实现在excel表格中添加一行名称呢？ python
2021-06-09 09:44

回答 2 已采纳基于xlwt和xlrd库说明，xlrd为读取表格用的，xlwt为编辑保存表格用的。常用接口和变量如下 excel = xlrd.open_workbook(表格名) #读取数据 sheets
python编程解决问题 python 有问必答
2021-06-09 20:56

回答 2 已采纳 import random a=[] sum=0 max=0 min=1000 for i in range(20): a.append(random.randint(1,999))
Python批量处理Excel表格，缩放打印所有列调整为一页，如何实现？ python
2021-11-26 16:20

回答 1 已采纳 ws.ws.sheet_properties.pageSetUpPr.fitToPage=True #加入句代码后问题解决 ws.page_setup.fitToWidth=True ws.p
Python一键提取PDF中的表格到Excel
2023-01-28 10:26

"Python一键提取PDF中的表格到Excel"是一个常见的需求，尤其是在数据分析、报表整理等场景下。这个话题涉及到Python的两个关键库：PyPDF2用于读取PDF文件，pandas则用于处理和转换数据，最终将表格数据保存为Excel...
求解！python可以处理Mac OS的Numbers表格吗？ python
2020-12-30 21:13

回答 2 已采纳 numbers可以export成csv，然后用pandas就可以导入成DataFrame了，再转numpy啥的就是各展神通了
python怎么实现PPT中表格内容的垂直居中对齐 python 有问必答
2021-08-18 12:01

回答 1 已采纳 table.cell(rows, cols).vertical_anchor = MSO_ANCHOR.MIDDLE
python如何读取excel中的表格并画折线图？ python
2022-06-05 10:16

回答 1 已采纳这个是饼图，可以在这个基础上修改 ![img]( https://img-mid.csdnimg.cn/release/static/image/mid/ask/589357067456199.png
python自动办公-24 Python一键提取PDF中的表格到Excel
2022-11-04 16:41

通过学习这个主题，你可以掌握Python自动化处理PDF表格的基本技能，为日常办公和数据分析提供便利。实践过程中，还可以根据需求扩展功能，比如合并多个PDF的表格，或者自动化的数据验证等。在不断探索和实践中，你的...
python提取excel中的特定数据 python
2022-04-09 00:12

回答 2 已采纳 import pandas as pd df=pd.read_excel('abc.xlsx') df=df.filter(regex='销售数据',axis=1) df.to_excel('bcd.
如何用Python+opencv提取图片中矩形顶点的坐标位置 opencv python 有问必答
2022-02-09 14:58

回答 3 已采纳先进行边缘检测：假设CANNY_THRESH_1 = 90CANNY_THRESH_2 = 120edges = cv2.Canny(gray, CANNY_THRESH_1, CANNY_THRES
使用python创建数据库表格却在mysql中不显示 python 有问必答
2021-07-03 16:33

回答 1 已采纳连接时，端口号没加上，试试这种： # -*- coding:utf-8 -*- import pymysql # 打开数据库 db = pymysql.connect(host='localhost'
py源码实例Python一键提取PDF中的表格到Excel
2024-04-20 15:39

### py源码实例：Python一键提取PDF中的表格到Excel #### 概述在现代办公环境中，高效的数据处理工具能够显著提升工作效率。本篇将详细介绍一个实用的Python脚本实例——如何实现一键从PDF文件中提取表格数据并...
python在正则表达式中如何提取a标签中的内容？ python
2019-07-16 09:49

回答 3 已采纳用正则，然后获取对应组。 ```python #encoding=utf-8 import re data = '记事本' regex = '(.*?)' print(re.match(r
Python一键提取PDF中的表格到Excel.zip
2023-07-31 22:53

在IT行业中，Python是一种广泛应用的编程语言，尤其在数据处理和自动化任务方面表现突出。本教程将探讨如何使用Python高效地从PDF文档中提取表格数据并将其保存为Excel格式，以便于进一步的数据分析和处理。首先，...
python实战-Python一键提取PDF中的表格到Excel.zip
2024-08-14 16:12

每个案例都配备了详细的步骤和代码解释，让你在实战中不断成长，逐步掌握Python编程的精髓。不仅如此，这份资源还注重培养你的问题解决能力和编程思维，让你在面对复杂任务时也能游刃有余。通过不断实践，你将发现...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月12日

悬赏问题

¥15 构建工单的总账影响在哪里查询或修改
¥15 三个简单项目写完之后有重赏之后联系我
¥15 python报内存不能read错误
¥15 hexo安装这种情况怎么办
¥100 找hCaptcha图形验证码自动识别解决方案
¥15 启动pycharm出错
¥15 Windows Script Host 无法找到脚本文件"C:\ProgramData\Player800\Cotrl.vbs”
¥15 matlab自定义损失函数
¥15 35114 SVAC视频验签的问题
¥15 impedancepy

python怎么处理在提取pdf中的表格跨页问题

2条回答 默认 最新

解决思路：

解决方案：

1. 检测跨页表格：

2. 跨页表格处理：

3. 表格数据提取：

总结：

问题事件

悬赏问题

2条回答默认最新