关于python的自动化办公提取pdf指定字段写入Excel

图片说明

from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.layout import LAParams, LTTextBox, LTImage, LTFigure
from pdfminer.converter import PDFPageAggregator




#打开pdf文件
fp = open('E:\py_pdf\PurchaseOrder#0002748567(0514).pdf','rb')

#从文件句柄创建一个pdf解析对象
parser = PDFParser(fp)

#创建pdf文档对象，存储文档结构
document = PDFDocument(parser)

#创建一个pdf资源管理对象，存储共享资源
rsrcmgr = PDFResourceManager()

laparams = LAParams()

#创建一个device对象
device = PDFPageAggregator(rsrcmgr, laparams=laparams)

#创建一个解释对象
interpreter = PDFPageInterpreter(rsrcmgr, device)

#处理包含在文档中的每一页
for page in PDFPage.create_pages(document):
    interpreter.process_page(page)
    layout = device.get_result()
    for x in layout:
        # 获取文本对象
        if isinstance(x, LTTextBox):
            print(x.get_text().strip())

因为刚接触接下来抽取指定字段有点不会，希望大神讲解

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dabocaiqq 2020-09-16 13:20
关注
https://blog.csdn.net/weixin_41261833/article/details/106028038

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

利用Python自动化执行本地的多个sql脚本，导出excel数据 oracle python 自动化
2022-06-30 21:25

回答 3 已采纳因为没有Oracle数据库，没法测试，目测你的问题是没有把curs参数传递到export_excel函数中，简单的解决方案就是在getDBInfo和export_excel函数都加个参数curs，调用
python 如何将一维list 写入excel列 list python
2022-06-24 16:55

回答 3 已采纳 import pandas as pd list2 = ['我是子目录', '我是孙目录', '我是重孙目录'] df = pd.DataFrame(data = list2, columns =
python 字典数据那么写入到excel中 python
2022-04-20 14:56

回答 1 已采纳用csv库，方法是writerow（）望采纳！
python自动化办公——python操作Excel、Word、PDF集合大全
2020-05-10 09:15

数据分析与统计学之美的博客 Python操作Word、Excel、PPT、PDF\、复杂文件、通信软件（微信、邮件、飞书、钉钉）、图片目录章节一：python使用openpyxl操作excel 1、openpyxl库介绍 2、python怎么打开及读取表格内容？ ...
python写入excel文件中单个单元格换行问题 python
2022-12-09 09:15

回答 2 已采纳得对单元格对象设置自动换行。 cell.alignment=Alignment(wrapText=True)
python提取excel中的特定数据 python
2022-04-09 00:12

回答 2 已采纳 import pandas as pd df=pd.read_excel('abc.xlsx') df=df.filter(regex='销售数据',axis=1) df.to_excel('bcd.
如何使用python代码实现对txt文件指定数字内容的提取并保存至excel文件？ python 有问必答
2021-08-20 23:27

回答 3 已采纳使用pandas对数据进行处理，参考如下示例代码： import os import pandas as pd path = "F:/2021/qa/ot1/dt1" fn=[os.path.join
python批量提取pdf内容并存入excel(excel可更新)
2022-08-04 14:23

朦朦墨色染的博客 python批量提取pdf内容并存入excel(excel可更新)
关于python自动化运维的一些问题 django flask python 云计算
2020-02-15 22:56

回答 7 已采纳 django主要是用于开发网站，写一些自动化的脚本以及一些功能的话，你应该学 pywin32（操作windows系统）、PyAutoGUI（自动操作界面）、Selenium（自动操作网页）、PyQt（
我用python写入excel, 代码是正确的但是excel没反应 python
2022-01-21 20:07

回答 1 已采纳成功了，那就有新文件， excel 不会有啥反应的。
关于python删除excel含某字符串的所有行的解决方法 python 多彩生活数据结构
2022-05-13 15:35

回答 2 已采纳如删除['附件','文献','项目']等关键字以及空白行的方法
pyhthon提取PDF文档中的数据存入Excel表中
2022-10-16 21:32

拓云者也的博客 python提取PDF文档中的数据表格到Excel中
python 提取excel的某几列的数据 list python
2021-02-08 08:52

回答 3 已采纳 import pandas as pd file_name = r"new.xlsx" df = pd.read_excel(file_name) columns = ["a","c","e"]
【python自动化办公（10）】python利用pdfplumber库提取PDF文字以及表格内容（复杂表格字段数据的处理）
2020-01-29 15:19

lys_828的博客利用pdfplumber提取文字 pdfplumber.open(pdf路径)/pdf.pages[页数]/page.extract_text() import os os.chdir('D:\\python_major\\auto_office10') import pdfplumber with pdfplumber.open("Netease Q2 2019...
Python 自动化教程(2) : Excel自动化：使用pandas库
2022-07-31 17:44

JoStudio的博客 Pandas 是一个开放源码、BSD许可的python库，提供高性能、易于使用的数据结构和数据分析工具，广泛应用于办公、学术、金融、统计学等各个数据分析领域。 Pandas 可以从各种文件格式比如 Excel文件、CSV文件、JSON、...
没有解决我的问题, 去提问

悬赏问题

¥100 Jenkins自动化部署—悬赏100元
¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘
¥15 perl MISA分析p3_in脚本出错
¥15 k8s部署jupyterlab，jupyterlab保存不了文件
¥15 ubuntu虚拟机打包apk错误
¥199 rust编程架构设计的方案有偿
¥15 回答4f系统的像差计算
¥15 java如何提取出pdf里的文字？

关于python的自动化办公 提取pdf指定字段写入Excel

1条回答 默认 最新

悬赏问题

关于python的自动化办公提取pdf指定字段写入Excel

1条回答默认最新