向奈儿 2020-09-21 09:15 采纳率: 0%
浏览 567
已结题

pdfminer3k 读取杂志的pdf文件字体包缺失和返回text的乱码问题如何解决?

1. 在github上可供下载的字体包没有warning中出现的字体样式,而且字体样式很多是组合式的(详见下图示例)

图片说明

** 2. 返回的text文本中有(cid:数字)形式的“乱码”,但我提取的pdf文件为全英文,目前网上针对此问题主要是与“中文乱码”相关的**

3. 部分英语单词被空格隔开了,怎么解决“识别并删去多余空格,但是不会影响原语句单词之间的空格”这一问题

初步发现遇见“i”就会分隔,如何与“I”做区分,或者加设判断将遇见“i”的分隔还原
(2、3详见下图示例)

图片说明

  • 写回答

2条回答 默认 最新

  • threenewbee 2020-09-21 09:23
    关注

    warning应该没有什么问题,不影响解析
    至于空格,这个思路在于,遍历文本中所有的单词1+空格+单词2
    准备一个英文单词表文件
    如果单词1单词2中有任意一个在已知词汇列表中没有,并且单词1+单词2有,那么就去掉空格

    评论

报告相同问题?

悬赏问题

  • ¥15 FPGA-SRIO初始化失败
  • ¥15 MapReduce实现倒排索引失败
  • ¥15 ZABBIX6.0L连接数据库报错,如何解决?(操作系统-centos)
  • ¥15 找一位技术过硬的游戏pj程序员
  • ¥15 matlab生成电测深三层曲线模型代码
  • ¥50 随机森林与房贷信用风险模型
  • ¥50 buildozer打包kivy app失败
  • ¥30 在vs2022里运行python代码
  • ¥15 不同尺寸货物如何寻找合适的包装箱型谱
  • ¥15 求解 yolo算法问题