使用pdfplumber运行读取pdf，结果为空

是因为我的代码有问题吗，但是运行其他的都没有问题，一到提取内容就出现了问题，是为什么呢

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-06-06 10:42

关注

引自免费微信小程序：皆我百晓生

在您提供的代码中，看起来没有明显的语法错误。不过，有时候PDF文件可能由于加密、格式问题或者其他原因导致文本无法被正确提取。这里有几个步骤可以帮助您排查问题。

检查PDF文件：确保您的PDF文件不是图片格式，而是包含可提取的文本。您可以尝试打开PDF文件并查看其内容是否可以复制粘贴，如果不能，那可能是文件本身的问题。
更新pdfplumber库：确保您的pdfplumber版本是最新的。有时旧版本可能无法处理某些PDF格式。您可以使用以下命令更新pdfplumber：
```
pip install --upgrade pdfplumber
```
使用其他工具验证：尝试使用其他Python库（如PyPDF2或PDFMiner）来提取文本，看看是否有不同的结果。这有助于确定问题是否出在pdfplumber上。

尝试不同方法提取：pdfplumber提供多种方式提取文本，例如通过页面区域、行或单词。您可以试试这些方法看是否能成功提取：

import pdfplumber

def extract_text_with_areas(pdf_path):
    with pdfplumber.open(pdf_path) as pdf:
        for page in pdf.pages:
            text = ""
            for area in page.extract_areas():
                text += area["text"] + "\n"
            return text

def extract_text_with_lines(pdf_path):
    with pdfplumber.open(pdf_path) as pdf:
        for page in pdf.pages:
            text = ""
            for line in page.extract_text().split("\n"):
                text += line + "\n"
            return text

def extract_text_with_words(pdf_path):
    with pdfplumber.open(pdf_path) as pdf:
        for page in pdf.pages:
            text = ""
            for word in page.extract_words():
                text += word["text"] + " "
            return text

# 使用上述函数之一替换原代码中的extract_text()
text = extract_text_with_areas("测试.pdf")
print(text)

解密PDF：如果PDF文件被加密，您可能需要提供密码才能访问其内容。使用pycryptodome库来尝试解密：

首先安装库：

pip install pycryptodome

然后添加解密部分到您的代码中：

from Crypto.Cipher import AES
from Crypto.Util.Padding import pad, unpad

def decrypt_pdf(ciphertext, key, iv):
    cipher = AES.new(key, AES.MODE_CBC, iv)
    plaintext = unpad(cipher.decrypt(ciphertext), AES.block_size)
    return plaintext.decode()

def extract_text_decrypted(pdf_path, password):
    with open(pdf_path, 'rb') as f:
        ciphertext = f.read()

    # 假设密码为"my_password"，根据实际情况调整
    key = b'my_password' * (16 // len(b'my_password'))
    iv = ciphertext[:16]

    decrypted_text = decrypt_pdf(ciphertext, key, iv)

    # 将解密后的文本写入新文件，然后尝试提取
    with open('decrypted_text.txt', 'w') as decrypted_file:
        decrypted_file.write(decrypted_text)

    # 使用之前的方法从新文件提取文本
    text = extract_text_with_areas('decrypted_text.txt')
    return text

# 替换原代码中的提取部分
text = extract_text_decrypted("测试.pdf", "my_password")
print(text)

如果以上所有方法都无法解决您的问题，那么问题可能出在PDF文件本身，您可能需要寻求专业的PDF修复服务或与文件创建者确认是否存在格式问题。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

报告相同问题？

关注问题

100天精通Python（进阶篇）——第42天：pdfplumber读取pdf（基础+代码实战写入Excel）
2022-06-13 07:32

小满大王i的博客全网最细pdfplumber读取PDF写入Excel详细教程
python使用pdfplumber从pdf文件中获取表格信息
2024-01-19 11:29

weixin_39772782的博客 python使用pdfplumber从pdf文件中获取表格信息，
PDF解锁神器：用PyMuPDF与pdfplumber告别手动提取
2025-05-03 14:49

为了解决这一问题，Python编程语言提供了一系列强大的库，其中PyMuPDF和pdfplumber成为了处理PDF文件的利器。 PyMuPDF是一个开源的库，它提供了对PDF、XPS和EPUB文件格式的操作能力。它支持读取、创建和修改这些...
深入探索pdfplumber：从PDF中提取信息到实际项目应用
2024-02-23 15:05

一键难忘的博客在数据处理和信息提取的过程中，PDF文档是一种常见的格式。然而，要从PDF中提取信息并进行进一步...本文将介绍如何使用Python库中的pdfplumber库来读取PDF文档，并通过实际代码示例演示如何将提取的信息写入Excel文件。
Python-pdfplumber读取PDF内容
2024-02-22 15:17

总裁余(余登武)的博客 pdfplumber还可以获得页面上的所有单词、直线、方格、乃至曲线的位置信息，具体可以看看官网的说明：https://github.com/jsvine/pdfplumber。
Python的pdfplumber库将PDF文件转成图片文件的实现
2024-01-18 11:42

weixin_39772782的博客 Python的pdfplumber库将pdf转为图片的实现
使用python实现pdf表格转为excel表格
2024-09-16 09:45

1. 读取PDF文件：这通常需要使用像PyPDF2、PdfPlumber或PyMuPDF等库来读取PDF文件。这些库可以帮助我们获取PDF文档的页面内容，进而可以提取其中的表格信息。 2. 表格数据提取：从PDF页面内容中提取表格数据，我们...
使用 Python 解析本地 PDF 文件的内容
2025-02-22 21:56

汪子熙的博客下面提供一个使用库的简单示例代码，该代码可以解析本地 PDF 文件中的文本内容。
Python异步编程｜PySimpleGUI界面读取PDF转换Excel
2024-01-06 17:10

Hann Yang的博客当时时间紧，没有好好做界面且输出csv文件了事。今天趁周六休息，把代码做一下升级处理，使用库pdfplumber直接遍历多个pdf文件，得到数据后输出Excel文件即可。之前先合并pdf文件再取数，纯粹有点多余。
python读取pdf文件（pdfplumber）
2021-09-24 09:50

qq_492448446的博客 Pdfplumber是一个可以处理pdf格式信息的库。可以查找关于每个文本字符、矩阵、和行的详细信息，也可以对表格进行提取并进行可视化调试。文档参考https://github.com/jsvine/pdfplumber 2.pdfplumber安装安装...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月6日

使用pdfplumber运行读取pdf，结果为空

1条回答 默认 最新

问题事件

1条回答默认最新