Python读取PDF时中文乱码如何解决？

在使用Python读取包含中文内容的PDF文件时，常出现中文乱码问题。该问题多源于PDF文本编码未正确识别或解析库（如PyPDF2、pdfplumber）对Unicode支持不完善，导致汉字显示为问号或乱码字符。尤其当PDF由扫描件或非标准字体生成时，缺乏可提取的文本层或内嵌字体未映射到系统字体，加剧了解析困难。如何确保准确提取并正常显示中文内容，成为实际项目中常见且亟待解决的技术难题。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

杜肉 2025-09-22 14:25

关注

一、中文PDF文本提取乱码问题的根源与挑战

在使用Python处理包含中文内容的PDF文件时，开发者常遇到文本提取后出现乱码、问号（?）或方框字符等问题。这类问题并非单一因素导致，而是由PDF文档结构、字体嵌入机制、编码方式及解析库能力共同作用的结果。

PDF文件本质上是复合型容器格式，其文本内容可能以以下几种形式存在：

纯文本流（可复制粘贴）
图像化文本（扫描件，需OCR）
自定义编码或子集字体嵌入
未映射到Unicode的字形索引

当PDF中使用了非标准中文字体（如华文楷体、仿宋等）且仅嵌入字形子集时，解析器无法通过默认编码映射还原原始汉字，从而导致乱码。

二、常见Python PDF解析库对比分析

库名称	支持中文	Unicode处理	适用场景	主要限制
PyPDF2 / PyPDF4	弱	差	简单文本提取	不支持复杂编码映射
pdfplumber	中等	一般	表格和布局分析	依赖底层PDFMiner，对内嵌字体处理有限
pdfminer.six	较强	较好	深度文本解析	配置复杂，需手动处理编码
camelot / tabula-py	间接支持	依赖底层引擎	表格数据提取	不适合段落文本
PyMuPDF (fitz)	强	优秀	高性能文本/图像混合提取	学习曲线较陡

三、技术解决方案演进路径

初级方案：尝试调整解码方式 —— 对提取后的字符串进行编码重置，如使用.encode('latin1').decode('utf-8')尝试修复编码错位。
中级方案：利用PDFMiner定制编码映射 —— 通过覆写PDFDevice和PDFInterpreter实现字体到Unicode的映射逻辑。
高级方案：结合OCR处理扫描件 —— 使用pytesseract + opencv-python对图像型PDF进行光学识别，绕过文本层缺失问题。
综合方案：PyMuPDF + 字体逆向分析 —— 利用fitz访问字体对象，提取ToUnicode CMap，重建字符映射表。

四、基于PyMuPDF的实战代码示例


import fitz  # PyMuPDF
import re

def extract_chinese_text(pdf_path):
    doc = fitz.open(pdf_path)
    full_text = ""
    
    for page_num in range(len(doc)):
        page = doc.load_page(page_num)
        text = page.get_text("text", flags=fitz.TEXT_DEHYPHENATE)
        
        # 尝试修复常见编码异常
        try:
            if isinstance(text, str):
                # 预防性清理
                text = re.sub(r'[\x00-\x1f\x7f-\x9f]', '', text)
        except Exception as e:
            print(f"编码清洗出错: {e}")
            
        full_text += text + "\n"
    
    return full_text

# 使用示例
content = extract_chinese_text("example_zh.pdf")
print(content)

五、处理内嵌字体与CMap映射的进阶策略

对于含有自定义编码的PDF，必须解析其ToUnicode CMap。以下是使用PyMuPDF读取字体映射的关键步骤：

获取页面资源中的/Font条目
检查每个字体是否包含ToUnicode流
解析CMap规则，建立cid → unicode映射表
在提取时动态替换原始字符

六、OCR辅助方案流程图

graph TD A[输入PDF文件] --> B{是否为扫描件？} B -- 是 --> C[使用pdf2image将PDF转为图像] C --> D[调用pytesseract进行OCR识别] D --> E[输出UTF-8编码的中文文本] B -- 否 --> F[尝试PyMuPDF直接提取] F --> G{是否存在乱码？} G -- 是 --> H[启用字体分析+CMap修复] G -- 否 --> I[输出正常文本] H --> J[重构字符映射并重新提取] J --> E I --> E

七、最佳实践建议清单

优先使用PyMuPDF (fitz)作为主解析引擎
对业务关键PDF建立“字体白名单”机制
预处理阶段判断PDF类型（原生 vs 扫描）
部署OCR服务作为后备通道（如Tesseract + 中文语言包）
日志记录乱码样本，用于模型训练或规则优化
定期更新Tesseract语言数据包至最新版本
避免依赖PyPDF2处理含中文的复杂文档
测试环境中模拟多种中文字体生成PDF进行验证

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

Python之pandas读写文件乱码的解决方法
2020-12-23 18:13

python读写文件有时候会出现 ‘XXX’编码不能打开XXX什么的，用记事本打开...以上这篇Python之pandas读写文件乱码的解决方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持软件开发网。
Python编程：PDF 处理库
2025-06-24 20:53

倔强老吕的博客 PyPDF2 是一个纯 Python 的 PDF 处理库，可以读取、分割、合并、转换和提取 PDF 内容
python读取pdf文档书签 bookmark_用Python为PDF文件批量添加书签
2020-12-18 16:56

weixin_39970668的博客平时看一些大部头的技术书籍，大多数都是PDF版的，而且有一些书籍是影印扫描版的，几百上千页的书，没有任何书签，想要找到一个章节的位置非常费劲。那么就想，能不能搞一个工具，来自动地为这些大部头的PDF书籍添加...
Python字符编码_中文乱码归类.pdf
2022-02-12 20:30

在使用Python进行编程时，经常会遇到中文乱码的问题。这些问题往往来源于不同的编码方式之间的冲突，尤其是在处理跨平台或多语言环境下的文本数据时尤为突出。本文将从Python字符编码的基础知识入手，详细介绍与中文...
python入门教程大全.pdf 精心整理
2023-04-11 10:07

4. **中文字符输出乱码**：在Python3中，需要正确设置文件编码以避免中文字符乱码问题，通常通过设置文件打开模式（如`'rb'`或`'wb'`）和编码方式（如`'utf-8'`）来解决。 5. **Python运行错误详解**：讲解Python...
python读取文件路径乱码 linux_Python之pandas读写文件乱码的解决方法
2020-11-24 05:04

weixin_39827775的博客 Python之pandas读写文件乱码的解决方法python读写文件有时候会出现‘XXX'编码不能打开XXX什么的，用记事本打开要读取的文件，另存为UTF-8编码，然后再用py去读应该可以了。如果还不行，那么尝试使用文件原有的编码...
Python中文乱码详解.pdf
2021-11-17 23:07

Python中的中文乱码问题是一个常见的困扰，特别是在处理文本文件或者从网络上获取数据时。本文主要探讨了字符编码的基础知识，以及如何在Python中解决这些问题。首先，我们要明白计算机无法直接处理字符，而是通过...
python怎么读取pdf为文本_记一次为解决Python读取PDF文件的Shell操作
2020-11-24 11:12

weixin_39522927的博客一、背景本想将 PDF 文件转换为 Word 文档，然后网上搜索了一下发现有挺多转换的软件。有的是免费的、收费，咱也不知哪个好使，还得一个个安装试用。先不说能不解决问题，就这安装试用想想就脑壳疼。便想起了"Python...
python 读写文件包含多种编码格式的解决方式
2020-09-18 06:20

在Python编程中，处理包含不同编码格式的文件是一项常见的任务，特别是当涉及到读取和合并来自不同来源的数据时。本文将详细介绍如何使用Python解决读写文件时遇到的多种编码格式问题。首先，我们需要理解编码的...
Python源码-Office自动化-解决将一个PDF文档拆分为多个PDF文档输出的编码问题.zip
2025-05-25 20:09

Python作为一门广泛使用的编程语言，它强大的库支持使其成为进行自动化操作的热门选择。尤其是在处理PDF文档方面，Python借助于第三方库，如PyPDF2、PdfFileWriter、PdfFileReader等，为开发者提供了拆分、合并、...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月22日