如何使用python将pdf解析成xml或者html

pdf文件是来自ietf的rfc文档，pdf文件数据如图一。
我需要实现的功能是将pdf解析成xml或html，从而取出文章中的各种部分的信息。单从内容来看，内容有点像是xml格式，但是我无法使用xml.etree来解析。
我目前使用的是fitz，但是解析出来的html效果如图二所示，pdf文件中所有标签的属性均消失了，只剩下了文本内容。这样解析出来的内容，我很难去定位信息位置。
所以，请问一下，该如何将这种样子的pdf文件解析成xml或者html文件（最好直接沿用原先的标签名和属性）？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
「已注销」 2023-04-13 14:41
关注
这要看里面是什么内容了

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python自动化办公：XML数据解析进阶.pdf
2025-04-26 13:32

它作为当今最热门的编程语言，以简洁优雅的语法和强大的功能，深受全球开发者喜爱。该文档为你开启一段精彩的 Python 学习之旅。从基础语法的细致讲解，到实用项目的实战演练，逐步提升你的编程能力。无论是数据科学...
python 批量实现OFD发票文件解析，并转存至excel中
2024-10-16 00:14

解析OFD文件，首先要了解OFD文件的结构，其包含了XML形式的文件描述信息和嵌入的PDF或图像等数据内容。在Python中，可以使用第三方库如python-ofd-io来解析OFD文件，该库能够读取OFD文件并以结构化方式输出文件内容...
基于Python语言的通用文本格式解析器设计源码
2024-10-05 07:52

Python作为一种高级编程语言，以其简洁清晰的语法和强大的库支持，在文本解析领域具有独特的优势。开发者可以利用Python内置的库，如xml.etree.ElementTree、json、yaml等，来处理XML、JSON、YAML等文本格式。这些...
Python将xml和xsl转换为html的方法
2020-09-22 09:07

在Python编程中，处理XML和XSL转换为HTML是常见的任务，尤其是在数据处理和网页生成的场景。XML（Extensible Markup Language）是一种用于存储和传输结构化数据的格式，而XSL（eXtensible Stylesheet Language）则...
基于Python与HTML的新媒体编程基础设计源码
2024-10-01 15:03

新媒体编程基础设计源码项目集成了多种文件类型，主要使用Python与HTML作为编程语言，目的是为新媒体编程搭建基础框架。项目内容丰富，涉及多个方面，为学习和实践提供了丰富的素材。首先，项目包含了130个Python...
Python视频教程带你轻松入门编程.pdf
2023-06-13 09:26

Python库如Scrapy用于高效的数据抓取，BeautifulSoup则用于解析HTML和XML文档，为网络安全提供了强大的工具。 Python不仅限于Web开发，还可以应用于桌面应用、游戏服务器、网站嵌入式开发，甚至在移动设备上运行。...
太全面了！使用PDF处理控件Aspose.pdf Python 解析 PDF的分步指南
2025-03-21 10:47

IT开发者笔记的博客解析PDF意味着从 PDF 文件中提取结构化或非结构化数据。...在本文中，我们将学习如何使用 Aspose.PDF for Python 在 Python 中解析 PDF。在本指南结束时，您将能够使用 Python 从 PDF 文档中提取文本、表格和图像。
python解析XML
2021-04-08 14:58

Python热爱者的博客 XML 全称 Extensible Markup Language，中文译为可扩展标记语言。XML 之前有两个先行者：SGML 和 HTML，率先登场的是 SGML，尽管它功能强大，但文档结构复杂，既不容易学也不易于使用，因此几个主要的浏览器厂商均...
Python解析XML，简化复杂数据操作的最佳工具！
2024-01-08 20:00

Sitin涛哥的博客 <person></person>本文深入探讨了如何使用Python操作XML文件，包括解析、创建、修改和验证XML文件的各种方法。无论是需要从XML文件中提取数据，还是需要生成符合规范的XML文件，Python都提供了丰富的工具和库来满足...
Python文件操作（Excel、PDF、XML、Word）
2024-05-26 13:16

寒秋丶的博客大家好，在现代数据驱动的世界中，对于数据的处理和管理是至关重要的。...本文将探讨Python中的文件操作，重点介绍如何使用Python处理Excel、PDF、XML和Word等常见文件格式，希望能给大家的工作带来一些帮助。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 6月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月13日

如何使用python将pdf解析成xml或者html

1条回答 默认 最新

问题事件

1条回答默认最新