我是做数据处理的,日常工作主要是根据pdf处理数据,有些数据会利用程序做解析,主要是把pdf格式转化为html格式,然后再对html进行解析入库。
想问一下大家,这种解析为啥要把pdf格式先转化为html格式后再做解析,而不是直接解析pdf呢?
另外pdf转化为html格式有什么好的方式进行,主要工具是python。
感谢大家。
为啥要把pdf格式先转化为html格式后再做解析,而不是直接解析pdf呢?
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
2条回答 默认 最新
- 王鹏飞的解忧屋 2022-06-04 11:39关注
1.Python处理数据最为常见的2种数据格式,html和json。
2.处理html格式的文档库bs4中API比较丰富方便,同时html结构比较规范与统一,能拿到所需数据格式。因此需要将PDF转为html在进行数据处理。
3.如果我们能写个库直接方便处理PDF那就不用转了哈。本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 1无用
悬赏问题
- ¥15 用友U8:向一个无法连接的网络尝试了一个套接字操作,如何解决?
- ¥30 我的代码按理说完成了模型的搭建、训练、验证测试等工作(标签-网络|关键词-变化检测)
- ¥50 mac mini外接显示器 画质字体模糊
- ¥15 TLS1.2协议通信解密
- ¥40 图书信息管理系统程序编写
- ¥20 Qcustomplot缩小曲线形状问题
- ¥15 企业资源规划ERP沙盘模拟
- ¥15 树莓派控制机械臂传输命令报错,显示摄像头不存在
- ¥15 前端echarts坐标轴问题
- ¥15 ad5933的I2C