pdfminer3k 读取杂志的pdf文件字体包缺失和返回text的乱码问题如何解决？

1. 在github上可供下载的字体包没有warning中出现的字体样式，而且字体样式很多是组合式的（详见下图示例）

图片说明

** 2. 返回的text文本中有（cid：数字）形式的“乱码”，但我提取的pdf文件为全英文，目前网上针对此问题主要是与“中文乱码”相关的**

3. 部分英语单词被空格隔开了，怎么解决“识别并删去多余空格，但是不会影响原语句单词之间的空格”这一问题

初步发现遇见“i”就会分隔，如何与“I”做区分，或者加设判断将遇见“i”的分隔还原
（2、3详见下图示例）

图片说明

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2020-09-21 09:23
关注
warning应该没有什么问题，不影响解析
至于空格，这个思路在于，遍历文本中所有的单词1+空格+单词2
准备一个英文单词表文件
如果单词1单词2中有任意一个在已知词汇列表中没有，并且单词1+单词2有，那么就去掉空格

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

这是咋回事啊？改了好久都不对 python
2022-11-13 11:40

回答 4 已采纳编码请都设置为utf-8，现在的网页一般都是utf-8的另外你这个爬虫估计运行不了，网站有反爬设置 # coding=utf-8 import json import re import reques
如何利用矩阵乘法快速幂求斐波那契数列前n项和？ c++
2020-04-13 11:26

回答 1 已采纳 https://www.cnblogs.com/peter-le/p/6055782.html
单片机驱动OLED屏出现个别字符乱码 51单片机
2021-09-19 23:09

回答 1 已采纳内存溢出或者其他功能程序有中断，打断iic读写，导致乱码
python解析pdf中文乱码_使用Python第三方库pdfminer提取PDF内容，并解决中文编码不支持的问题...
2020-12-04 02:34

weixin_39857792的博客这两天刚好完成一个提取人行简版征信报告PDF...我用的是mac系统，Python 3.6，依赖第三方库pdfminer3k 1.3.1。这个是pdfminer的python 3.x版本，原始版为pdfminer，只支持python2 .x。如果想要支持中日韩文字，这...
判断一个序列是不是等比级数。用C语言解答这个问题怎么做呢？ c语言
2018-12-07 15:34

回答 2 已采纳 https://en.wikipedia.org/wiki/Geometric_progression
如何在IOS应用程序和网站中保持文本数据的一致性？ ios json php
2018-05-29 18:11

回答 1 已采纳 Just my bit would be to store the data in on server as a text file and later use the website or th
调用别人的接口返回的好像是base64,不知道该怎么解析!! java javascript web安全
2022-04-26 11:30

回答 3 已采纳看一下响应头
python解析pdf中文乱码_解析PDF文件以及解决编码问题
2020-12-09 14:11

weixin_39938165的博客 1、解析pdf文件最近需要将pdf中文本提取出来，于是就了解了一下pdfminer首先安装：pip3 install pdfminer3k之后就是用pdfminer解析，不多说，直接上代码，这些代码都是参考各位前辈from pdfminer.pdfparser import ...
请问为什么不输出结果呢 python
2022-05-09 16:54

回答 4 已采纳我这里运行，修改了这个位置。结果打印：
在一串文字里面提取出img和img里面的属性src javascript 正则表达式
2022-05-06 11:10

回答 2 已采纳正则表达式即可<img src=\\"([\S\s]*?)" ` content: "<p><img src=\"data:image/jpeg;base64,/9j/4AA
HttpSocket 登录服务的问题？
2016-09-13 10:27

回答 1 已采纳 http://blog.csdn.net/zeng622peng/article/details/5546384
python怎么读取pdf为文本_记一次为解决Python读取PDF文件的Shell操作
2020-11-24 11:12

weixin_39522927的博客一、背景本想将 PDF 文件转换为 Word 文档，然后网上搜索了一下发现有挺多转换的软件。有的是免费的、收费，咱也不知哪个...使用环境(python3.6+pdfminer3k)，代码这里就不放出来了。二、问题运气不好，这一试就报错...
无法通过Python验证RSASSA-PSS签名-> Go python
2015-05-28 00:27

回答 1 已采纳 So it appears I misinterpreted _SALT_SIZE in the Python code. With some help from the TUF develope
python pdf转word并保持原有的格式_将PDF转换为Word文档后，格式即可解决问题
2020-12-10 16:20

weixin_39626180的博客 sodngl的专栏03-111670如何将PDF转换为不带乱码的单词如何将PDF转换为Word？将PDF转换为Word不是一项技术性的任务，但是由于许对此问题this昧不清，因此他们认为PDF转换为Word是一个复杂的过程. 实际上，否则，将PDF...
Python---解析各种文件汇总
2022-06-07 10:42

我姓曹，谢谢的博客 python解析各种类型文件
算法实战应用案例精讲-【自动化办公】使用Python操作PDF文档全记录（python代码实战）
2023-02-17 00:30

林聪木的博客 PDF（便携式文件格式，Portable Document Format）是由Adobe Systems在1993年用于文件交换所发展出的文件格式。PDF主要由三项技术组成：衍生自PostScript；字型嵌入系统；资料压缩及传输系统。它的优点在于跨平台、...
python写word文档_使用Python通过win32 COM实现Word文档的写入与保存方法
2020-11-24 12:06

weixin_39843431的博客使用Python通过win32 COM实现Word文档的写入与保存方法通过win32 COM接口实现软件的操作本质上来看跟直接操作软件一致，这跟我之前经常用的通过各种扩展的组件或者库实现各种文件的处理有较大的差异。如果有过...
数据分析：基于Python的自定义文件格式转换系统
2018-07-18 17:29

weixin_30689307的博客数据分析：基于Python的自定义文件格式转换系统 ( 白宁超 2018年7月16日14:47:41 ) 导读：随着大数据的快速发展，自然语言处理、数据挖掘、机器学习技术应用愈加广泛。针对大数据的预处理工作是一项庞杂、棘手...
WARING：root:GBK-EUC-H
2021-01-26 18:09

小辉U的博客 PDFminer3k解析pdf文件错误记录：WARING：root:GBK-EUC-H PDFminer3k解析pdf文件报错信息： WARNING:root:Cannot locate objid=17108 WARNING:root:GBK-EUC-H WARNING:root:UniGB-UTF16-H 查询信息发现是字体原因 ...
数据预处理：自定义PDF格式批量转换TXT系统
2018-07-18 17:29

weixin_33862993的博客数据预处理：自定义文件格式转换系统 ( 白宁超 2018年8月29日15:36:24 ) 导读：随着大数据的快速发展，自然语言处理、数据挖掘、机器学习技术应用愈加广泛...采集后的信息文件格式不一，诸如pdf，doc，docx，Exce...
没有解决我的问题, 去提问

悬赏问题

¥15 FPGA-SRIO初始化失败
¥15 MapReduce实现倒排索引失败
¥15 ZABBIX6.0L连接数据库报错，如何解决？(操作系统-centos)
¥15 找一位技术过硬的游戏pj程序员
¥15 matlab生成电测深三层曲线模型代码
¥50 随机森林与房贷信用风险模型
¥50 buildozer打包kivy app失败
¥30 在vs2022里运行python代码
¥15 不同尺寸货物如何寻找合适的包装箱型谱
¥15 求解 yolo算法问题

pdfminer3k 读取杂志的pdf文件字体包缺失和返回text的乱码问题如何解决？

2条回答 默认 最新

悬赏问题

2条回答默认最新