qq_39457721 2021-02-19 17:51 采纳率: 0%
浏览 86
已结题

PDF的文字定位识别

怎么对PDF内的文字分段识别?例如:第一张图是一个PDF,里面包含标题、作者、正文,我要用什么方法去分别把标题、作者、正文读取出来并写入excel?写入excel的格式如图二。求大神指导指导!!!!求求了!!!!!

  • 写回答

2条回答 默认 最新

  • 幻灰龙 2021-02-19 19:58
    关注

    内容很多么,这种要看你的实际情况。

    • 数量不多直接手工录入就行。
    • 如果PDF格式良好,可以用一些工具把PDF导出成Word格式,然后就好处理了。
    • 如果数量很多,PDF又是不能直接转成word格式的。你可以尝试用一些PDF的OCR识别工具,先尝试把PDF转成文本格式,再处理。

    如果是最后一种情况,这种没有什么万能的解决方案,你这是一个有技术含量,又有开发工作量的功能需求,需要花钱找人做开发。

    评论

报告相同问题?

悬赏问题

  • ¥15 odoo17处理受托加工产品
  • ¥15 如何用MATLAB编码图三的积分
  • ¥15 为什么我安装了Homebrew之后,无法像官网的那样通过执行命令安装Watchman
  • ¥15 圆孔衍射光强随孔径变化
  • ¥15 MacBook pro m3max上用vscode运行c语言没有反应
  • ¥15 ESP-PROG配置错误,ALL ONES
  • ¥15 结构功能耦合指标计算
  • ¥50 AI大模型精调(百度千帆、飞浆)
  • ¥15 非科班怎么跑代码?如何导数据和调参
  • ¥15 福州市的全人群死因监测点死亡原因报表