为啥要把pdf格式先转化为html格式后再做解析，而不是直接解析pdf呢？

我是做数据处理的，日常工作主要是根据pdf处理数据，有些数据会利用程序做解析，主要是把pdf格式转化为html格式，然后再对html进行解析入库。
想问一下大家，这种解析为啥要把pdf格式先转化为html格式后再做解析，而不是直接解析pdf呢？
另外pdf转化为html格式有什么好的方式进行，主要工具是python。
感谢大家。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
王鹏飞的解忧屋 2022-06-04 11:39
关注
1.Python处理数据最为常见的2种数据格式，html和json。
2.处理html格式的文档库bs4中API比较丰富方便，同时html结构比较规范与统一，能拿到所需数据格式。因此需要将PDF转为html在进行数据处理。
3.如果我们能写个库直接方便处理PDF那就不用转了哈。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

为啥要把pdf格式先转化为html格式后再做解析，而不是直接解析pdf呢？ python
2022-06-04 11:19

回答 2 已采纳 1.Python处理数据最为常见的2种数据格式，html和json。2.处理html格式的文档库bs4中API比较丰富方便，同时html结构比较规范与统一，能拿到所需数据格式。因此需要将PDF转为ht
我用html将模板设计好，然后直接改后缀为ftl作为模板，用Java渲染数据后导出pdf结果格式发送变化。要怎么做才能保证效果一样 java
2022-01-05 19:26

回答 1 已采纳先生成html的临时文件, 找个html转pdf的工具转成pdf, 我们是做word的模板, 然后spire转成pdf
pdf为base64格式的怎么展示出图片 javascript node.js 前端
2022-08-07 15:27

回答 1 已采纳 pdf用img标签肯定是打不开，如果想实现pdf直接预览而不是下载建议用pdf.js
PLC顺序功能图转化梯形图的精简编程解析.pdf
2021-08-07 21:12

#资源达人分享计划#
Ctex编译成功后没有pdf，如何解决？(语言-开发语言|开发工具-visual studio) c语言 visual studio 开发语言有问必答
2023-02-27 20:12

回答 4 已采纳用文件包里的repair修复一下https://www.zhihu.com/question/511979155
使用sklearn的决策树来分类鸢尾花数据时为啥生成的决策树PDF闪退？ python sklearn 决策树有问必答
2022-03-25 09:23

回答 3 已采纳在最后加这两行试试 import os os.system('iris.pdf')
怎么把图片格式转换为pdf格式 android
2013-05-31 15:39

回答 2 已采纳用itext，[url]http://blog.sina.com.cn/s/blog_49e851ec010090ba.html[/url]，[url]http://itway.iteye.com/b
java面试题（JAVA代码与编程）.pdf
2023-04-25 12:56

但是要保证汉字不被截半个，如“我ABC”4，应该截为“我AB”，输入“我ABC 汉 DEF”，6，应该输出为“我ABC”而不是“我ABC+汉的半个”。 2、可能会让你写一段Jdbc连 Oracle的程序,并实现数据查询. 3、ORACLE 大数据...
LibreOffice将PDF转换为Word作为文本框而不是普通文档 php
2018-12-13 13:46

回答 1 已采纳 Your problem lies with the software used to create the PDF; output in the form of textboxes in a P
为什么R语言输出pdf打不开图 r语言有问必答
2022-03-14 05:46

回答 2 已采纳加上dev.off()再运行看看PDF("mycats.pdf")就是打开PDF设备,(就像你准备画画时打开画板，这样接下来才能绘图或者画画)dev.off()是关闭当前设备（合上画板）
C# 将html转成pdf后，pdf显示的内容非常窄 c# css html5
2022-03-23 09:40

回答 2 已采纳代码呢
pdf java解析_用java如何解析pdf文件
2021-02-12 13:51

weixin_39887961的博客展开全部一、前言在企业的信息系统中，报表处理一直占比较62616964757a686964616fe4b893e5b19e31333262343161重要的作用，本文将介绍一种生成PDF报表的Java组件--iText。通过在服务器端使用Jsp或JavaBean生成PDF报表...
微信小程序如何实现拍几张照片后，将这几张照片转换为pdf或者word文档？小程序微信小程序
2021-12-13 14:54

回答 2 已采纳常规来说，生成PDF或word的工作应该在后端来做，因为有时候，手持设备的性能肯定没有服务器的性能好，待后端生成后，小程序显示下载链接即可
【办公自动化】用Python将PDF文件转存为图片
2023-09-27 14:11

艾派森的博客因工作中的某些奇葩要求，需要将PDF文件的每页内容转存成按顺序编号的图片。用第三方软件或者在线转换也可以，但批量操作还是Python方便，所谓搞定办公自动化，Python出山，一统天下；Python出征，寸草不生~ O(∩_∩...
PDF格式原理学习
2022-02-15 13:30

小哈里的博客 PDF是Portable Document Format 的缩写，可翻译为“便携文件格式”，由Adobe System Incorporated 公司在1992年发明。 PDF文件是一种编程形式的文档格式，它所有显示的内容，都是通过相应的操作符进行绘制的。 PDF...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月4日

悬赏问题

¥15 用友U8：向一个无法连接的网络尝试了一个套接字操作，如何解决？
¥30 我的代码按理说完成了模型的搭建、训练、验证测试等工作(标签-网络|关键词-变化检测)
¥50 mac mini外接显示器画质字体模糊
¥15 TLS1.2协议通信解密
¥40 图书信息管理系统程序编写
¥20 Qcustomplot缩小曲线形状问题
¥15 企业资源规划ERP沙盘模拟
¥15 树莓派控制机械臂传输命令报错，显示摄像头不存在
¥15 前端echarts坐标轴问题
¥15 ad5933的I2C

为啥要把pdf格式先转化为html格式后再做解析，而不是直接解析pdf呢？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新