谁帮我用python解析一下pdf，并提取里面的数据以excel的形式保存！pdf公布有一定的规律。

谁帮我用python解析一下pdf，并提取里面的数据以excel的形式保存！pdf公布有一定的规律。
思路是：
我现在有一个文件里面，都是这样类似的pdf，披露的格式大体是这样，现在我想要遍历这个文件夹，挨个去解析每一个pdf，然后解析这个pdf，获取下面的比例数值，然后以excel的形式保存。
可以用1-2家pdf举例来实现这个代码，然后执行能实现我想要的结果就行，这样我就能遍历其他的pdf了。

提供几个pdf案例（下载到本地，需要注意的是，有些议案不披露中小股东表决情况，这种就算空！）：

    http://static.cninfo.com.cn/finalpage/2022-02-12/1212351041.PDF
    http://static.cninfo.com.cn/finalpage/2022-04-30/1213258311.PDF
    http://static.cninfo.com.cn/finalpage/2022-04-30/1213257243.PDF

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

9条回答默认最新

阳光宅男xxb 2023-02-21 12:31

关注

您好，关于您提出的使用python提出pdf中的指定数据信息，已经为您写好了程序。
最后的效果：

核心代码：


partern_total = r'[0-9]+\.[0-9]*|-?[0-9]+%'
            result_total = re.findall(partern_total,text_total_find)
            total = 0
            if result_total:
                total = result_total[0]

            partern_detail = r'[、\s{0,2}|（.*?）]*[逐项]*(审议[并]{0,1}通过[了]{0,1}.*?)\n'
            result_detail = re.findall(partern_detail, text_detail_find)

            if result_detail:
                for i in range(len(result_detail)):
                    dict_data = {}
                    text_detail_find = text_detail_find[text_detail_find.find(result_detail[i]):]
                    #修正标题
                    if "《" in result_detail[i] and '》' not in result_detail[i]:
                        result_detail[i] = text_detail_find[0:text_detail_find.find('》')+1]
                        result_detail[i] = re.sub('\n','',result_detail[i])

                    title = result_detail[i]#议案标题

                    dict_data['议案'] = title
                    dict_data['出席股东表决权占比'] = total
                    if i!=(len(result_detail)-1):
                        current_text = text_detail_find[0:text_detail_find.find(result_detail[i+1])]
                    else:
                        current_text = text_detail_find

                    result_data = re.findall('(同意|反\n?对|弃\n?权).*?([0-9]+\.[0-9]*|-?[0-9]+)[%|％]',current_text,re.S)

                    if (len(result_data)!=3 and len(result_data)!=6) or not re.findall('反\n?对',current_text):
                        continue

                    dict_data['总体表决情况：同意占比'] = result_data[0][1]
                    dict_data['总体表决情况：反对占比'] = result_data[1][1]
                    dict_data['总体表决情况：弃权占比'] = result_data[2][1]

                    if len(result_data)==6:
                        dict_data['中小股东表决情况：同意占比'] = result_data[3][1]
                        dict_data['中小股东情况：反对占比'] = result_data[4][1]
                        dict_data['中小股东情况：弃权占比'] = result_data[5][1]
                    else:
                        dict_data['中小股东表决情况：同意占比'] = '0.00'
                        dict_data['中小股东情况：反对占比'] = '0.00'
                        dict_data['中小股东情况：弃权占比'] = '0.00'
                    # print(dict_data)
                    pddata = pd.DataFrame(dict_data,index=[0])
                    all_data = pd.concat([all_data,pddata],ignore_index=True)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(8条)

报告相同问题？

关注问题

谁帮我用python解析一下pdf，并提取里面的数据以excel的形式保存！pdf公布有一定的规律。 python
2023-02-20 17:37

回答 9 已采纳您好，关于您提出的使用python提出pdf中的指定数据信息，已经为您写好了程序。最后的效果：核心代码： partern_total = r'[0-9]+\.[0-9]*|-?[0-9]+%'
如何使用python代码实现对txt文件指定数字内容的提取并保存至excel文件？ python 有问必答
2021-08-20 23:27

回答 3 已采纳使用pandas对数据进行处理，参考如下示例代码： import os import pandas as pd path = "F:/2021/qa/ot1/dt1" fn=[os.path.join
python小白，想请教一下为什么我处理过的数据使用pandas保存excel会出现保存不全这种情况 python windows 有问必答机器学习
2021-05-26 10:19

回答 3 已采纳 import numpy as np import pandas as pd recoeffs = np.array([1,-1,1,-1,1,-1]) df = pd.DataFrame({'lv
爬取年报数据、解析PDF提取数据、分析代码（巨潮 Python）
2019-04-30 17:33

herr_kun的博客利用Python爬取巨潮网页上的年报等数据，通过解析下载的PDF文件，提取其中有用的数据，并写入到本地文件中。主要分为几个模块： 1、从Excel或者列表或者TXT读取股票代码 2、根据股票代码和年份等信息爬取特定...
python批量pdf转excel，多喝个list无法转为excel数据 python 有问必答
2021-08-01 21:53

回答 2 已采纳 to_excel()函数在每次循环中都写入一次，会覆盖写入，结果就是最后一组的数据。如果要获取全部的，可以在循环中用append方法，写成一个整的数据框，然后在循环外用to_excel写入。 impo
如何使用python对excel做归一化处理并保存？ python 数据挖掘有问必答机器学习
2022-03-27 15:20

回答 2 已采纳按列试试 axis=0
python提取excel中的特定数据 python
2022-04-09 00:12

回答 2 已采纳 import pandas as pd df=pd.read_excel('abc.xlsx') df=df.filter(regex='销售数据',axis=1) df.to_excel('bcd.
还不会用 Python 提取 PDF 表格？三种类型数据，轻松转换成 Excel
2021-03-21 00:55

刘早起的博客大家好，从PDF中提取信息是办公场景中经常需要用到的操作，也是经常又读者在后台问的一个操作。内容少的话我们可以手动复制粘贴，但如果需要批量提取就可以考虑使用Python，之前我也转载过相关...
怎样在Python csv文件中每24行提取一次数据并保存到一个单独的csv文件中？ python 有问必答
2022-04-08 03:39

回答 4 已采纳不需要每隔24行数据单独保存到一个文件，只需要用列表切片每隔24行切成为一个列表,把切片出来的列表作为一个元素添加到一个li2列表中.用random.shuffle(li2)随机打乱li2,再合并写到
python 提取excel的某几列的数据 list python
2021-02-08 08:52

回答 3 已采纳 import pandas as pd file_name = r"new.xlsx" df = pd.read_excel(file_name) columns = ["a","c","e"]
利用Python读取txt文件，并存入PDF转换的excel中 python
2022-05-31 21:26

回答 3 已采纳你已经写的差不多了，ws = wb.active 下面通过 wb.cell(行索引,列索引,value=值) 这种方式往里写就行了啊
Python 提取 PDF 中的表格数据
2021-12-18 22:54

achi010的博客 PDF 中的表格数据，使用 Python 提取，使用的框架是 pdfplumber 或 camelot 。
如何用Python把PDF、Word、Excel等文件储存到MySQL中呢？难道人家上传文件到网站不是用MySQL来储存的吗 python
2022-03-14 11:07

回答 3 已采纳一般都是存储该文件的路径，你要都存到数据库里，那体量得多大，查询也费劲，回传也麻烦，反正我没见谁都给存数据库里的，来回转换就够费劲的了。你这个问题有很多其他方法可以解决，你看看百度文库，或者存到百度云
Python提取PDF简历中的信息，写入Excel
2021-11-04 08:18

IT农民工1的博客公众号后台回复“图书“，了解更多号主新书内容作者：阿豪来源：数据分析与统计学之美今天为大家分享一个真实的案例。今天接到人力资源部同事的需求，想把他人投递的PDF简历资料里的关键信息数据，提...
【办公自动化】用Python将PDF文件转存为图片
2023-09-27 14:11

艾派森的博客因工作中的某些奇葩要求，需要将PDF文件的每页内容转存成按顺序编号的图片。用第三方软件或者在线转换也可以，但批量操作还是Python方便，所谓搞定办公自动化，Python出山，一统天下；Python出征，寸草不生~ O(∩_∩...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金15元 2月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金15元 2月21日
展开全部

悬赏问题

¥100 set_link_state
¥15 虚幻5 UE美术毛发渲染
¥15 CVRP 图论物流运输优化
¥15 Tableau online 嵌入ppt失败
¥100 支付宝网页转账系统不识别账号
¥15 基于单片机的靶位控制系统
¥15 真我手机蓝牙传输进度消息被关闭了，怎么打开？(关键词-消息通知)
¥15 装 pytorch 的时候出了好多问题，遇到这种情况怎么处理？
¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
¥15 手机接入宽带网线，如何释放宽带全部速度

谁帮我用python解析一下pdf，并提取里面的数据以excel的形式保存！pdf公布有一定的规律。

9条回答 默认 最新

问题事件

悬赏问题

9条回答默认最新