qq_26007951 2022-06-04 11:19 采纳率: 80%
浏览 22
已结题

为啥要把pdf格式先转化为html格式后再做解析,而不是直接解析pdf呢?

我是做数据处理的,日常工作主要是根据pdf处理数据,有些数据会利用程序做解析,主要是把pdf格式转化为html格式,然后再对html进行解析入库。
想问一下大家,这种解析为啥要把pdf格式先转化为html格式后再做解析,而不是直接解析pdf呢?
另外pdf转化为html格式有什么好的方式进行,主要工具是python。
感谢大家。

  • 写回答

2条回答 默认 最新

  • 王鹏飞的解忧屋 2022-06-04 11:39
    关注

    1.Python处理数据最为常见的2种数据格式,html和json。
    2.处理html格式的文档库bs4中API比较丰富方便,同时html结构比较规范与统一,能拿到所需数据格式。因此需要将PDF转为html在进行数据处理。
    3.如果我们能写个库直接方便处理PDF那就不用转了哈。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 6月12日
  • 已采纳回答 6月4日
  • 创建了问题 6月4日

悬赏问题

  • ¥15 用友U8:向一个无法连接的网络尝试了一个套接字操作,如何解决?
  • ¥30 我的代码按理说完成了模型的搭建、训练、验证测试等工作(标签-网络|关键词-变化检测)
  • ¥50 mac mini外接显示器 画质字体模糊
  • ¥15 TLS1.2协议通信解密
  • ¥40 图书信息管理系统程序编写
  • ¥20 Qcustomplot缩小曲线形状问题
  • ¥15 企业资源规划ERP沙盘模拟
  • ¥15 树莓派控制机械臂传输命令报错,显示摄像头不存在
  • ¥15 前端echarts坐标轴问题
  • ¥15 ad5933的I2C