python PDF2TXT，提取到TXT的字序混乱，请教怎么修改？


```python

import os
import re
from pdfminer.converter import LTChar, TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBox
from io import StringIO
from io import open
 
#读取pdf文件文本内容
def read(path):
    parser = PDFParser(path)
    doc = PDFDocument(parser, '')
    parser.set_document(doc)
    if not doc.is_extractable:
        raise PDFTextExtractionNotAllowed
    else:
        # 创建PDf 资源管理器 来管理共享资源
        rsrcmgr = PDFResourceManager()
        # 创建一个PDF聚合器，包含资源管理器与参数分析器
        laparams = LAParams()
        device = PDFPageAggregator(rsrcmgr, laparams=laparams)
        # 创建一个PDF解释器对象
        interpreter = PDFPageInterpreter(rsrcmgr, device)
        # 循环遍历列表，每次处理一个page的内容
        page0 = ''
        for i, page in enumerate(PDFPage.create_pages(doc)):
            interpreter.process_page(page)
            print("START PAGE %d\n" % i)
            if page is not None:
                interpreter.process_page(page)
            print("END PAGE %d\n" % i)
            # 接受该页面的LTPage对象
            layout = device.get_result()
            print(layout)
            # 这里layout是一个LTPage对象，里面存放着这个 page 解析出的各种对象
            # 包括 LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等
            line0 = ''
            for x in layout:
                if isinstance(x, LTTextBox):
                    line0 = line0 + x.get_text().strip()
            page0 = page0 + line0
        return page0 #返回pdf文件中所有提取到的文本内容
 
if __name__ == '__main__':
    path = os.path.abspath('PDF2TXT') #更换PDF文件夹
    pdfList = os.listdir(path)
    #批量读取存储
    pdf_num = 0
    for li in pdfList:
        try:
            pdffile = open(path + '/' + li, "rb")
            content = read(pdffile)
        except:
            continue
        str = re.sub('.pdf', '.txt', li)
        file1 = 'PDF2TXT/' + str  #存储TXT文件夹
        with open(file1, 'w+', encoding='utf-8') as f:
            f.write(content)
        pdf_num = pdf_num + 1
        # handleData(str)
        print("DONE:" + str )
    print('number of done-article:',end = "")
    print(pdf_num)



![img](https://img-mid.csdnimg.cn/release/static/image/mid/ask/354321067666134.png "#left")

![img](https://img-mid.csdnimg.cn/release/static/image/mid/ask/460041067666125.png "#left")

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oomoster 2022-10-27 18:11
关注
这个问题解决了，聚合器的值取大一点，laparams = LAParams(char_margin=20.0)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python PDF2TXT，提取到TXT的字序混乱，请教怎么修改？
2022-10-26 12:01

oomoster的博客 python pdfminer PDF2TXT，提取到TXT的字序混乱，请教怎么修改？
表一字频总表说明1本表字序依频次高低安排2本表收字4650字.pdf
2021-11-02 01:52

《表一字频总表说明1本表字序依频次高低安排2本表收字4650字.pdf》这份文档便是一项重要的汉字使用频率统计成果，它不仅为汉字使用者提供了便捷的参考，也为教育和语言学研究提供了坚实的数据支持。该字频总表的...
Python之a2y-modbus包语法、参数和实际应用案例
2025-07-21 01:23

王国平的博客 a2y-modbus是一个用于Python的Modbus通信协议库，支持Modbus RTU、Modbus ASCII和Modbus TCP协议。它提供了简洁的API接口，使开发者能够轻松实现与Modbus设备的通信，包括读取传感器数据、控制工业设备等功能。该库...
Python实现点选验证码识别, 模拟登陆小破站并自动发弹幕
2022-11-21 16:34

魔王不会哭的博客开发环境: Python 3.8 Pycharm 2021.2 谷歌浏览器谷歌驱动模块使用: selenium >>> pip install selenium==3.141.0 指定版本安装 time 打码平台如果安装python第三方模块: win + R 输入 cmd 点击确定, 输入安装...
python的运算顺序和c一样吗,【Python】Python 对比 C语言的差异
2021-04-27 09:57

weixin_39829497的博客 Python是编译型还是解释型这个界限并不明显，但大致上可以理解为解释型语言，执行速度慢，由于Python虚拟机，Python是可以跨平台的，Python高度集成适合于软件的快速开发。二、基本元素C语言的数据类型如下图： ...
python基础_for循环和while循环及作业讲解
2022-02-09 11:02

菜菜同学的笔记，每天进步一点点的博客 # 打印100遍hello,python # 限定：100次--条件：结束的条件 # 1.2.3.4.5.6.7............100 # # 一旦用了while循环，那就一定需要考虑让条件不成立的场景 # 代表次数 count = 1 while count < 101: # 条件满足...
【华为OD机试真题 Python语言】72、没有回文串 | 机试真题+思路参考+代码解析
2023-07-01 00:26

KJ.JK的博客现在已经存在一个不包含回文串的字符串，字符串的字符都是在英语字母的前N个，字符串不包含任何长度大于等于2的回文串； > 请找出下一个字序的不包含回文串的、字符都是在英语字母的前N个、长度相同的字符串。...
Python 中的分支结构、循环结构、流程控制语句
2024-06-29 18:36

code36的博客其中顺序结构最简单，程序从上到下依次执行，就如同生活中一条笔直的大马路，一路畅行无阻；分支结构是指当程序执行到某步时，需根据实际情况选择性的执行某部分代码，就如同生活中的十字路口，需要根据具体情况...
NLP 第五周语言模型，bert（2）
2022-09-16 19:40

我还是喜欢从前的自己的博客 BERT类预训练语言模型我们传统训练网络模型的方式首先需要搭建网络结构，然后通过输入经过标注的训练集和标签来使得网络可以直接达成我们的目的。这种方式最大的缺点就是时间长，因为我们对于模型权重的初始化是...
说文解字序-及其翻译.docx
2021-10-05 19:09

说文解字序-及其翻译.docx
国外高校用python代替c_Python 现在这么火，国外有些大学基础也是 Python，为什么国内大学还在教C 语言呢？...
2021-02-05 08:40

ysl冰蓝的博客计算机系，不学c，不自己动手实现数据结构，而是直接使用python的数据结构，那你学到了计算机的什么东西呢？...而每一门程序语言的编程陷阱往往来源于以上的东西。如果你无法真正理解以上的概念，那你...
超右脑图像记忆单词的方法和基本技巧.pdf
2023-11-01 09:14

3. 其他灵活方法，如字序巅倒、置换联想法、减字母联想法等，通过改变字母顺序或替换部分字母，创造新的记忆线索。例如，单词"fee"（服务费）可以与"bee"（蜜蜂）和"服"的谐音结合，想象为为蜜蜂服务需要支付费用...
2字节（short）4字节（int）交换字序
2022-01-18 17:22

宽容人厚载物的博客 exchangeBytes_16（0x1234）; 执行结果 0x3412 exchangeBytes__32（0x12345678）; 执行结果 0x78563412 ... 2 * Function Name : exchangeBytes 3 * Description : 模拟的htons 或者 ntohs，如果系统支字节序
python查看各列数据类型_python数据类型-列表
2020-12-04 12:44

weixin_39664477的博客列表列表说明:列表是Python的基础数据类型之一,其他编程语言也有类似的数据类型,比如js的数组.java的数组等等.它是以[]括起来,每个元素用','隔开而且可以存放各种数据类型:列表相较于字符串,不仅不可以存放不同的...
18、Tcl编程实用指南与技巧
2025-12-10 03:55

bb456的博客本文是一份全面的Tcl编程实用指南，涵盖正则表达式构建技巧、跨平台文件路径与行尾处理、二进制数据的扫描与格式化方法，以及Tk开发中的常见错误与解决方案。同时介绍了丰富的Tcl扩展工具、应用程序资源和学习资料，...
【modbus-C#】 NModbus4 使用
2022-05-13 06:30

十年一梦实验室的博客制造商已决定使用 2 个连续的 Modbus 寄存器来编码浮点值。这听起来很容易……但是，没那么快。尽管同意使用 2 个连续的寄存器对浮点值进行编码，但对于数据发送的顺序没有标准方法。示例：对于浮点值...
自然语言处理在开放搜索中的应用
2020-10-20 10:18

阿里云云栖号的博客它涉及到自然语言和形式化语言的分析、抽取、理解、转换和产生等多个课题。人工智能可以分为几个阶段 •计算智能，指依靠计算强大的算力和海量数据的存储能力，可以在部分领域超越人类的表现。代表例子就是谷歌的...
医学数据库大全.pdf
2021-10-11 00:53

医学数据库大全.pdf 本资源是一个医学数据库大全，收录了世界上最著名的医学文献检索系统、数据库和在线资源，涵盖了医学、药物、健康、教育、研究等多个领域。本摘要将对这些数据库和资源进行详细的介绍和说明。 ...
tms320f28069.pdf
2022-01-09 14:22

内存方面，TMS320F28069提供高达256KB的闪存、100KB的RAM和2KB的一次编程只读存储器（OTP ROM）。六通道直接内存访问（DMA）机制提升了数据传输效率。该器件设计考虑了低功耗，支持多种低功耗模式，并且只需单个3.3V...
Linux中文乱码问题文.pdf
2021-11-04 15:48

UTF-8是一种变长编码，它对ASCII字符使用单字节，而对于其他字符则使用2到4字节。UTF-16则是16位编码，基本与Unicode编码对应，但受字节顺序标记（BOM）的影响，与CPU字序有关。在Linux中，locale是设置语言环境的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月26日

python PDF2TXT，提取到TXT的字序混乱，请教怎么修改？

1条回答 默认 最新

问题事件

1条回答默认最新