python pdf 矢量提取

问题遇到的现象和发生背景

提取PDF中的元素，需要元素在PDF的顺序号、位置信息及所属的Object

问题相关代码，请勿粘贴截图

pdf_name = r'C:\Users\LH\Desktop\tt06.pdf'
doc = fitz.open(pdf_name)
page = doc[0]

# 所有object
for i in range(1, doc.xref_length()):
    print(doc.xref_object(i, compressed=False))
    print("obj*-*"*20)
content = page.read_contents() # 文件流

运行结果及报错内容

目前没有办法将一个个的元素分开

b'\n0.06 0 0 0.06 14 48 cm\n\nq\n0 0 m\n4075 0 l\n4075 11593 l\n0 11593 l\n0 0 l W n\n0 0 0 RG\n0 0 0 rg\n /DeviceGray CS\n/GT255 gs\n12 w\r\n1 j\r\n1 J /OC /oc1 BDC\n\n2054 9155 m\n1110 7917 l\nS\n2565 8202 m\n2331 8102 l\n2565 8002 l\nS\n2565 7735 m\n2331 7735 l\nS\n2515 7735 m\n2548 7768 l\n2565 7802 l\n2565 7852 l\n2548 7885 l\n2515 7918 l\n2465 7935 l\n2431 7935 l\n2381 7918 l\n2348 7885 l\n2331 7852 l\n2331 7802 l\n2348 7768 l\n2381 7735 l\nS\n2331 7618 m\n2565 7618 l\nS\n2465 7618 m\n2515 7602 l\n2548 7568 l\n2565 7535 l\n2565 7485 l\nS\n2565 7385 m\n2331 7285 l\n2565 7185 l\nS\n2331 7285 m\n2231 7335 l\n2215 7352 l\n2215 7402 l\nS\n3414 7860 m\n2527 6490 l\nS\n1783 6762 m\n1783 6788 l\n1770 6814 l\n1731 6827 l\n1509 6827 l\nS\n1692 6866 m\n1692 6775 l\nS\n1770 6709 m\n1757 6696 l\n1770 6683 l\n1783 6696 l\n1770 6709 l\nS\n1692 6696 m\n1509 6696 l\nS\n1509 6605 m\n1692 6605 l\nS\n1640 6605 m\n1679 6566 l\n1692 6539 l\n1692 6500 l\n1679 6474 l\n1640 6461 l\n1509 6461 l\nS\n1613 6356 m\n1613 6200 l\n1640 6200 l\n1666 6213 l\n1679 6226 l\n1692 6252 l\n1692 6291 l\n1679 6317 l\n1653 6343 l\n1613 6356 l\n1587 6356 l\n1548 6343 l\n1522 6317 l\n1509 6291 l\n1509 6252 l\n1522 6226 l\n1548 6200 l\nS EMC\nQ'

我的解答思路和尝试过的方法

通过查看PDF协议标准解析PDF，PDF协议标准太多，没有办法在短时间找到解析思路

我想要达到的结果

将元素分开并标明元素属性（所属object、顺序号、颜色等）

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-天际的海浪 2022-01-11 21:07
关注
或者你可以用正则表达式提取需要的内容

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python 解析pdf矢量图_如何从PDF文件中提取矢量图
2020-12-10 20:23

weixin_40003512的博客本文教大家一种一种从pdf中提取矢量图的方法。工具软件：1adobe acrobat (可以选用福昕阅读器替代)2inkscape (选取该矢量作图软件因为安装包小，提供的常用功能住够应付日常办公，高端功能请选用adobe illustrator)...
Python实现OFD与PDF互转[可运行源码]
2025-11-13 07:17

Python实现OFD与PDF互转的代码示例主要包含ofd_to_pdf和pdf_to_ofd两个函数，分别用于将OFD格式文档转换成PDF格式和将PDF格式文档转换为OFD格式。OFD格式是中国国家标准GB/T33190-2016定义的电子文档格式，它提供了...
基于python数字高程模型地形数据批量提取.pdf
2021-06-29 13:34

在使用Python进行数据处理时，数据处理包如GDAL/OGR、Shapely、Fiona和PyShp等提供了强大的矢量和栅格数据处理能力。另外，Python中的游标（Cursor）对象提供了一种读取和修改数据库中数据的方式，使得对数据的操作...
ArcGIS下基于Python的矢量点在线上拓扑方法.pdf
2021-06-29 12:29

本文介绍了在ArcGIS中，使用Python脚本语言实现矢量数据中点在线上的自动拓扑修正的方法。在地理信息系统（GIS）数据处理过程中，经常需要处理矢量数据的点与线之间的拓扑关系。拓扑关系是指在矢量数据中，点、线、...
【精准解析】pdfplumber完全指南：从PDF中提取文本、表格与元数据的Python利器
2025-05-07 09:00

莫比乌斯@卷的博客精确提取PDF中的文本、表格和图像内容分析文档结构和布局处理复杂的表格数据开发自动化数据提取系统与其他Python库和Web框架集成随着PDF文档数量的持续增长，自动化提取和分析这些文档中的数据变得越来越重要。...
python 读取矢量图svg
2024-07-14 15:04

东方佑的博客在Python中读取矢量图，通常指的是读取如SVG（可缩放矢量图形）或PDF等格式的文件。对于这些格式的处理，Python有几个库可以做到，如。请注意，处理矢量图形时可能需要遵守相关的版权和使用条款。在使用这些工具和...
Python PDF转换成Word 文件保留格式去除文档水印
2025-02-13 14:38

奔向理想的星辰大海的博客将PDF文件转换为Word文档并保留格式，同时去除水印，可以通过以下步骤实现。我们将使用Python中的pdf2docx库来转换PDF文件，并使用PyMuPDF（也称为fitz）来去除水印。
使用Python将PDF转换成word、PPT
2025-07-06 13:36

wh3933的博客数据提取：它依赖于功能强大的PyMuPDF（也被称为fitz）库来从PDF文件中提取底层数据，包括文本内容、位置信息、图像以及矢量图形（如线条和矩形）。布局解析：在提取原始数据后，pdf2docx应用一套复杂的、基于规则的...
基于Python的数据分析.pdf
2021-06-29 13:31

- Numpy：Numpy是Python科学计算的基础包，提供了强大的N维数组对象Array及相关的矩阵数据类型和矢量处理函数库，是数据分析的基础。 - Pandas：Pandas是Python中一个强大的数据分析包，内含高级数据结构和操作...
python 读取pdf图片_三种方法，Python轻松提取PDF中全部图片
2021-03-05 16:49

喵小二cc的博客今天就跟大家系统分享几种Python提取 PDF 图片的方法。其实没有非常完美的方法，每种方法提取效率都不是百分之百，因此可以考虑用多种方法进行互补，主要将涉及：基于fitz 库和正则搜索提取图片基于pdf2image 库的两...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 1月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月11日

python pdf 矢量提取

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

1条回答 默认 最新

问题事件

1条回答默认最新