python PDF2TXT，提取到TXT的字序混乱，请教怎么修改？


```python

import os
import re
from pdfminer.converter import LTChar, TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBox
from io import StringIO
from io import open
 
#读取pdf文件文本内容
def read(path):
    parser = PDFParser(path)
    doc = PDFDocument(parser, '')
    parser.set_document(doc)
    if not doc.is_extractable:
        raise PDFTextExtractionNotAllowed
    else:
        # 创建PDf 资源管理器 来管理共享资源
        rsrcmgr = PDFResourceManager()
        # 创建一个PDF聚合器，包含资源管理器与参数分析器
        laparams = LAParams()
        device = PDFPageAggregator(rsrcmgr, laparams=laparams)
        # 创建一个PDF解释器对象
        interpreter = PDFPageInterpreter(rsrcmgr, device)
        # 循环遍历列表，每次处理一个page的内容
        page0 = ''
        for i, page in enumerate(PDFPage.create_pages(doc)):
            interpreter.process_page(page)
            print("START PAGE %d\n" % i)
            if page is not None:
                interpreter.process_page(page)
            print("END PAGE %d\n" % i)
            # 接受该页面的LTPage对象
            layout = device.get_result()
            print(layout)
            # 这里layout是一个LTPage对象，里面存放着这个 page 解析出的各种对象
            # 包括 LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等
            line0 = ''
            for x in layout:
                if isinstance(x, LTTextBox):
                    line0 = line0 + x.get_text().strip()
            page0 = page0 + line0
        return page0 #返回pdf文件中所有提取到的文本内容
 
if __name__ == '__main__':
    path = os.path.abspath('PDF2TXT') #更换PDF文件夹
    pdfList = os.listdir(path)
    #批量读取存储
    pdf_num = 0
    for li in pdfList:
        try:
            pdffile = open(path + '/' + li, "rb")
            content = read(pdffile)
        except:
            continue
        str = re.sub('.pdf', '.txt', li)
        file1 = 'PDF2TXT/' + str  #存储TXT文件夹
        with open(file1, 'w+', encoding='utf-8') as f:
            f.write(content)
        pdf_num = pdf_num + 1
        # handleData(str)
        print("DONE:" + str )
    print('number of done-article:',end = "")
    print(pdf_num)



![img](https://img-mid.csdnimg.cn/release/static/image/mid/ask/354321067666134.png "#left")

![img](https://img-mid.csdnimg.cn/release/static/image/mid/ask/460041067666125.png "#left")

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oomoster 2022-10-27 18:11
关注
这个问题解决了，聚合器的值取大一点，laparams = LAParams(char_margin=20.0)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python PDF2TXT，提取到TXT的字序混乱，请教怎么修改？ python
2022-10-26 12:56

回答 1 已采纳这个问题解决了，聚合器的值取大一点，laparams = LAParams(char_margin=20.0)
python设计猜成语游戏 python 有问必答
2022-10-07 17:27

回答 2 已采纳第四、猜出正确字序，这个怎么判断法？输出打乱的第三步的内容，然后让用户输入正确的成语后判断？如果是用下面的 import random words=['行尸走肉', '金蝉脱壳', '百里挑一',
我算的是10 13 27 97 76 65 38和答案不一样，验算好几次还是这样，请求讲解一下数据结构算法
2022-04-19 20:15

回答 2 已采纳可以看这个表参考，望采纳！
python PDF2TXT，提取到TXT的字序混乱，请教怎么修改？
2022-10-26 12:01

oomoster的博客 python pdfminer PDF2TXT，提取到TXT的字序混乱，请教怎么修改？
表一字频总表说明1本表字序依频次高低安排2本表收字4650字.pdf
2021-11-02 01:52

表一字频总表说明1本表字序依频次高低安排2本表收字4650字.pdf
Python实现点选验证码识别, 模拟登陆小破站并自动发弹幕
2022-11-21 16:34

魔王不会哭的博客开发环境: Python 3.8 Pycharm 2021.2 谷歌浏览器谷歌驱动模块使用: selenium >>> pip install selenium==3.141.0 指定版本安装 time 打码平台如果安装python第三方模块: win + R 输入 cmd 点击确定, 输入安装...
python的运算顺序和c一样吗,【Python】Python 对比 C语言的差异
2021-04-27 09:57

weixin_39829497的博客 Python是编译型还是解释型这个界限并不明显，但大致上可以理解为解释型语言，执行速度慢，由于Python虚拟机，Python是可以跨平台的，Python高度集成适合于软件的快速开发。二、基本元素C语言的数据类型如下图： ...
python基础_for循环和while循环及作业讲解
2022-02-09 11:02

菜菜同学的笔记，每天进步一点点的博客 # 打印100遍hello,python # 限定：100次--条件：结束的条件 # 1.2.3.4.5.6.7............100 # # 一旦用了while循环，那就一定需要考虑让条件不成立的场景 # 代表次数 count = 1 while count < 101: # 条件满足...
NLP 第五周语言模型，bert（2）
2022-09-16 19:40

我还是喜欢从前的自己的博客 BERT类预训练语言模型我们传统训练网络模型的方式首先需要搭建网络结构，然后通过输入经过标注的训练集和标签来使得网络可以直接达成我们的目的。这种方式最大的缺点就是时间长，因为我们对于模型权重的初始化是...
【华为OD机试真题 Python语言】72、没有回文串 | 机试真题+思路参考+代码解析
2023-07-01 00:26

KJ.JK的博客现在已经存在一个不包含回文串的字符串，字符串的字符都是在英语字母的前N个，字符串不包含任何长度大于等于2的回文串； > 请找出下一个字序的不包含回文串的、字符都是在英语字母的前N个、长度相同的字符串。...
说文解字序-及其翻译.docx
2021-10-05 19:09

说文解字序-及其翻译.docx
说文解字序资料与翻译.doc
2021-09-21 10:07

说文解字序资料与翻译.doc
国外高校用python代替c_Python 现在这么火，国外有些大学基础也是 Python，为什么国内大学还在教C 语言呢？...
2021-02-05 08:40

ysl冰蓝的博客计算机系，不学c，不自己动手实现数据结构，而是直接使用python的数据结构，那你学到了计算机的什么东西呢？...而每一门程序语言的编程陷阱往往来源于以上的东西。如果你无法真正理解以上的概念，那你...
python查看各列数据类型_python数据类型-列表
2020-12-04 12:44

weixin_39664477的博客列表列表说明:列表是Python的基础数据类型之一,其他编程语言也有类似的数据类型,比如js的数组.java的数组等等.它是以[]括起来,每个元素用','隔开而且可以存放各种数据类型:列表相较于字符串,不仅不可以存放不同的...
【modbus-C#】 NModbus4 使用
2022-05-13 06:30

十年一梦实验室的博客制造商已决定使用 2 个连续的 Modbus 寄存器来编码浮点值。这听起来很容易……但是，没那么快。尽管同意使用 2 个连续的寄存器对浮点值进行编码，但对于数据发送的顺序没有标准方法。示例：对于浮点值...
自然语言处理在开放搜索中的应用
2020-10-20 10:18

阿里云云栖号的博客它涉及到自然语言和形式化语言的分析、抽取、理解、转换和产生等多个课题。人工智能可以分为几个阶段 •计算智能，指依靠计算强大的算力和海量数据的存储能力，可以在部分领域超越人类的表现。代表例子就是谷歌的...
wordcloud | 词云 in python
2023-01-11 21:02

洪宏鸿的博客 /usr/bin/env python """ 最简单的例子 =============== 使用默认参数从编程语言生成一个方形词云 """ import os from os import path from wordcloud import WordCloud # 获取数据路径 # 在 IPython notebook 下则...
2字节（short）4字节（int）交换字序
2022-01-18 17:22

宽容人厚载物的博客 exchangeBytes_16（0x1234）; 执行结果 0x3412 exchangeBytes__32（0x12345678）; 执行结果 0x78563412 ... 2 * Function Name : exchangeBytes 3 * Description : 模拟的htons 或者 ntohs，如果系统支字节序
[动态规划]Leetcode53.最大子序和（python）
2020-12-05 20:47

阿_旭的博客 [动态规划]Leetcode53.最大子序和如果读者对于动态规划思路解法还不是很了解，可以先点击链接...输入: [-2,1,-3,4,-1,2,1,-5,4] 输出: 6 解释: 连续子数组 [4,-1,2,1] 的和最大，为 6。 DP定义及状态方程定义dp[i]
java默认字节序,如何让在字节序Java或Python？
2021-03-02 09:09

王信文的博客 In C I could the Endianess of the machine by the following ... how would I get using a python or Java program?. In Java, char is 2-bytes unlike C where it is 1-byte. I think it might not be possib...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月26日

悬赏问题

¥20 wireshark抓不到vlan
¥20 关于#stm32#的问题：需要指导自动酸碱滴定仪的原理图程序代码及仿真
¥20 设计一款异域新娘的视频相亲软件需要哪些技术支持
¥15 stata安慰剂检验作图但是真实值不出现在图上
¥15 c程序不知道为什么得不到结果
¥40 复杂的限制性的商函数处理
¥15 程序不包含适用于入口点的静态Main方法
¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来

python PDF2TXT，提取到TXT的字序混乱，请教怎么修改？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新