Python中pdfplumber文本提取字节重复

目标：提取年报文本
执行：Python中pdfplumber包提取PDF文字到txt
问题：对于PDF中加粗文字，解析为文本时出现字节重复
举例如下：
如以下PDF文本中，

Python提取的内容为：

而我不需要重复文本，只需要正常文字。
请问应该如何做到，是换package还是加新的函数呢

附加：使用代码如下：

import pdfplumber

def pdf2txt(filename, delLinebreaker=True):
    """读取PDF页面内容，
    delLinebreaker是否删除换行符(\n)，默认True删除"""
    pageContent = ''
    showplace = ''
    try:    
        with pdfplumber.open(  filename  ) as pdf:
            page_count = len(pdf.pages)
            for page in pdf.pages:
                # 获取当前页面的全部文本信息，包括表格中的文字
                if delLinebreaker==True:
                    pageContent += page.extract_text().replace('\n', "")    #删除换行符
                else:
                    pageContent += page.extract_text()    #不处理换行符
    except Exception as e:
        print( "文件为", filename, '原因为', repr(e) )
    return pageContent

pdf2txt(r"report.pdf", delLinebreaker=False)

另外，尝试 pdfminer 包后，还是有相似的问题，只是重复的情况变为单词的重复，而不是字的重复：

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.pdfpage import PDFPage

rsrcmgr = PDFResourceManager()
outfp = open(r"Report.txt", 'w', encoding='utf-8')
device = TextConverter(rsrcmgr, outfp)
with open(r"Report.pdf", 'rb') as fp:
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    for page in PDFPage.get_pages(fp):
        interpreter.process_page(page)
device.close()
outfp.close()

结果如下：

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
herosunly 优质创作者: python技术领域 2023-04-10 12:53
关注
你把提取代码输出一些，我看看

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

使用 Python 解析本地 PDF 文件的内容
2025-02-22 21:56

汪子熙的博客下面提供一个使用库的简单示例代码，该代码可以解析本地 PDF 文件中的文本内容。
Python-pdfplumber读取PDF内容
2024-02-22 15:17

总裁余(余登武)的博客 pdfplumber还可以获得页面上的所有单词、直线、方格、乃至曲线的位置信息，具体可以看看官网的说明：https://github.com/jsvine/pdfplumber。
Python医疗报告自动化提取：PDF批量下载与无框表格解析
2025-05-14 18:03

TaotieTurtle的博客本文介绍了使用Python进行批量下载和解析PDF文件的流程，主要分为三个步骤：批量下载PDF、扫描PDF提取数据、将数据写入表格。在批量下载PDF部分，使用Selenium库模拟浏览器操作，并解决了无法直接下载PDF的问题，...
从 Python 潮流周刊提取了 800 个链接，精选文章、开源项目、播客视频集锦
2024-07-20 17:29

进击的六角龙的博客本文从从《Python 潮流周刊》整理了约 800 个链接，有 5 大分类，你可以快速浏览文章、项目、播客、视频和话题讨论的标题，快速找到自己感兴趣的内容进行查看。
深入学习python解析并读取PDF文件内容的方法
2019-11-12 13:07

程序员浩轩的博客这篇文章主要学习了python解析并读取PDF文件内容的方法，包括对学习库的应用，python2.7和python3.6中python解析PDF文件内容库的更新，包括对pdfminer库的详细解释和应用。主要参考了一些已有的博客内容，代码。　...
pdf_image_extraction：此工具旨在从日记纸中提取图像（如果未作为资源包含在文件中）
2021-02-14 20:51

Python是开发此类工具的理想选择，因为它有丰富的库支持，如PDFMiner、PyPDF2、PDFBox（Java库，但可以在Python中通过Jython调用）和PIL（Python Imaging Library），以及更现代的库如PDFPlumber和ReportLab等。...
万字浓缩版，Python 潮流周刊第 1 季的 800 个链接！
2024-07-17 21:50

Python猫的博客 △△请给“Python猫”加星标，以免错过文章推送你好，我是豌豆花下猫。前几天，我重新整理了 Python 潮流周刊的往期分享，推出了第 1 季的图文版电子书，受到了很多读者的一致好评。但是，合集和电子书的篇幅很长，...
Python识别PDF扫描版PDF纯图PDF，OCR提取汉字的10大方法，力推RapidOCRPDF 可识别纯图PDF 加密签名的PDF 重点是开源免费，某些方面准确度比百度OCR高
2023-05-24 13:43

朴拙数据交易猿的博客 pdf[onnxruntime] # 基于rapidocr_openvino pip install rapidocr_pdf[openvino] 依托于RapidOCR仓库，快速提取PDF中文字，包括扫描版PDF、加密版PDF。如果是可以直接复制的PDF，可以直接使用pdf2docx，不再重复造...
python open读取_读取文件—open()、read()
2020-11-24 12:30

weixin_39534149的博客在Windows下的powershell打开python: Win+R打开运行窗口，输入powershell，输入python进入python环境。一、Python open()函数文件打开操作打开文件会用到open函数，标准的python打开文件语法如下：open(name[,mode[,...
python主要运用于-python主要用于
2020-11-01 12:57

weixin_37988176的博客下面是片段分类的一个示例文--catalog.xml 4 python 测试 zope 分类是树状结构，显示出来可能为： python 测试 zope 先简单介绍一下xml的知识...有些复杂的还有一些文档类型的定义(doctype)，用于定义此xml文档所用...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 5月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 4月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 4月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月10日

Python中pdfplumber文本提取字节重复

2条回答 默认 最新

问题事件

2条回答默认最新