Python处理PDF时中文乱码如何解决？

在使用Python的`PyPDF2`或`pdfplumber`等库提取含中文文本的PDF内容时，常出现中文乱码问题。主要原因是PDF中的文字采用特定编码（如GBK或自定义字体子集），而解析库默认以ASCII或UTF-8解码，导致无法正确识别中文字符。此外，部分PDF使用嵌入字体但未映射到Unicode，进一步加剧乱码。如何在不损坏原始内容的前提下，准确提取并还原中文文本？这是开发者在处理中文PDF时普遍面临的挑战。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

小丸子书单 2025-10-01 08:15

关注

1. 中文PDF文本提取乱码问题的表层现象分析

在使用 PyPDF2 或 pdfplumber 提取包含中文的 PDF 文件时，开发者常遇到如下输出：

ä¸æ–‡å—ç¬¦ä¹±ç

这种现象表明原始字节流被错误地以 UTF-8 解码，而实际内容可能是 GBK 编码或基于自定义字体映射的字形索引。此类问题多出现在扫描件、非标准生成工具导出的文档中。

PyPDF2 对文本编码处理能力较弱，尤其不支持 CMap（字符映射）解析。
pdfplumber 虽基于 PDFMiner.six，但默认仍假设 Unicode 映射存在。
部分 PDF 使用 Type 3 字体或子集嵌入，未提供 ToUnicode CMap 表。

2. 深层技术机制剖析：PDF文本编码与字体系统

PDF 文档中的文本绘制依赖于以下核心结构：

组件	作用	常见问题
Font Dictionary	定义字体名称、类型和编码方式	缺失 ToUnicode CMap
CMap (Character Code to Unicode)	将字形编码转换为 Unicode	未嵌入或损坏
Glyph Substitution	使用自定义字形替代标准字符	无法逆向映射
Encoding	指定字符代码到字形的映射	采用 WinAnsiEncoding 或自定义

当 PDF 使用嵌入的 GBK 子集字体且未提供 ToUnicode 映射时，解析器只能获取字形编号（如 /F1 12 Tf (ABC) Tj），而无法还原其语义内容。

3. 常见解决方案路径对比

尝试强制解码：对提取的字节流使用 GBK/GB2312 解码，适用于简单编码混淆场景。
利用 PDFMiner 更深层 API：通过 LAParams 和 TextConverter 控制编码行为。
图像化处理 OCR：将 PDF 页面转为图像后使用 PaddleOCR 或 Tesseract 进行识别。
构建自定义 CMap 映射库：针对固定模板 PDF 手动校准字形到汉字的映射关系。
结合 JavaScript 工具链：使用 Mozilla 的 pdf.js 在浏览器环境中渲染并提取文本。

from pdfminer.high_level import extract_text
import codecs

# 尝试使用 pdfminer 直接提取，并指定编码上下文
text = extract_text("chinese_doc.pdf")
print(text)  # 可能仍出现乱码

# 若已知原始编码为 GBK，尝试手动修复
with open("output.txt", "wb") as f:
    f.write(text.encode("utf-8"))

# 后续可用 external tool 转换编码
# iconv -f utf-8 -t gbk output.txt

4. 高级策略：基于 PDF 结构的深度解析流程

graph TD A[输入PDF文件] --> B{是否含可选ToUnicode CMap?} B -- 是 --> C[使用PDFMiner解析CMap映射] B -- 否 --> D[检查字体子集是否为GBK编码] D --> E{是否存在已知编码模式?} E -- 是 --> F[应用预设解码规则GBK/Big5] E -- 否 --> G[转为图像 + OCR识别] C --> H[输出结构化中文文本] F --> H G --> H

该流程体现了从结构解析到降级兜底的完整策略链。关键在于判断 PDF 是否具备语义层级的文本映射信息。

5. 实战案例：修复某财务报表PDF的中文提取

某企业年报 PDF 使用 AdobeCJK-Song-Light 字体，但 ToUnicode 缺失。我们采用如下步骤：

# step1: 使用 pdfplumber 查看字体信息
import pdfplumber
with pdfplumber.open("report.pdf") as pdf:
    first_page = pdf.pages[0]
    print(first_page.chars[0]["fontname"])  # 输出: ABCDEF+SongStd-Light

# step2: 判断是否为常见中文字体子集
# 发现编码为 WinAnsiEncoding，但实际内容为 GBK 字形

# step3: 回退至 OCR 方案
from PIL import Image
import fitz  # PyMuPDF
import pytesseract

doc = fitz.open("report.pdf")
for page_num in range(len(doc)):
    pix = doc[page_num].get_pixmap()
    img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
    text = pytesseract.image_to_string(img, lang='chi_sim')
    print(text)

6. 构建可持续的中文PDF处理框架建议

为应对多样化的中文 PDF 来源，推荐建立分层处理架构：

第一层：尝试使用增强版 PDFMiner 解析 CMap 和字体编码。
第二层：对失败文档自动转入图像化 OCR 流程。
第三层：引入机器学习模型预测字体编码类型（如区分 GBK vs Big5）。
第四层：缓存常见模板的字形映射，提升后续处理效率。

此外，可集成 fontTools 库分析嵌入字体的 cmap 表，辅助还原原始字符集。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

Python之pandas读写文件乱码的解决方法
2020-12-23 18:13

python读写文件有时候会出现 ‘XXX’编码不能打开XXX什么的，用记事本打开...以上这篇Python之pandas读写文件乱码的解决方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持软件开发网。
Python编程：PDF 处理库
2025-06-24 20:53

倔强老吕的博客 PyPDF2 是一个纯 Python 的 PDF 处理库，可以读取、分割、合并、转换和提取 PDF 内容
Python字符编码_中文乱码归类.pdf
2022-02-12 20:30

在使用Python进行编程时，经常会遇到中文乱码的问题。这些问题往往来源于不同的编码方式之间的冲突，尤其是在处理跨平台或多语言环境下的文本数据时尤为突出。本文将从Python字符编码的基础知识入手，详细介绍与中文...
Day 4 用Python处理文件.pdf
2022-04-17 10:42

在日常的编程工作中，使用Python处理文件是一项非常常见的任务。本篇将详细解释如何使用Python进行文件的操作，特别是不同编码间的转换，这对于跨平台开发尤其重要。 ### 一、Python中的字符编码在深入探讨之前，...
python入门教程大全.pdf 精心整理
2023-04-11 10:07

4. **中文字符输出乱码**：在Python3中，需要正确设置文件编码以避免中文字符乱码问题，通常通过设置文件打开模式（如`'rb'`或`'wb'`）和编码方式（如`'utf-8'`）来解决。 5. **Python运行错误详解**：讲解Python...
Python爬虫中文乱码处理实例代码解析
2023-12-23 20:00

Sitin涛哥的博客在本文中，深入探讨了Python爬虫中处理中文乱码的各种方法，旨在帮助大家解决在网络数据抓取过程中常见的编码问题。这些问题可能导致数据解析不正确，影响到数据质量和可靠性。从明确指定编码、使用第三方库（如...
Python中文乱码详解.pdf
2021-11-17 23:07

Python中的中文乱码问题是一个常见的困扰，特别是在处理文本文件或者从网络上获取数据时。本文主要探讨了字符编码的基础知识，以及如何在Python中解决这些问题。首先，我们要明白计算机无法直接处理字符，而是通过...
【知识图谱与自然语言处理】基于相关性提示的知识图谱问答系统实现：编码混乱文本的解构与修复（含详细代码及解释）
2025-08-25 04:18

其他说明：文档建议在处理此类问题时，优先获取原始PDF文件的字体嵌入信息，并通过专业PDF解析工具（如pdfminer.six+自定义CMap）进行结构化提取。同时，对于无法自动映射的部分，建议采用OCR辅助或人工校对的方式...
Python3操作pdf文件之ReportLab第1篇--解决中文乱码问题
2019-05-10 22:31

老陈说编程的博客一说到pdf文件，大家应该都很熟悉吧，特别是那些经常在网上搜索某本书pdf版的人...Python3处理pdf的第3库挺多的，当然，处理其它文件的库也多。这次咱就说下耳熟能详、久经战场并被最、最、最被看好的ReportLab。 ...
我心中的王者：Python-第18章使用Python处理PDF文件
2024-07-30 18:03

andyyah晓波的博客 PDF文件和Word文件一样是二进制(binary)文件，所以处理起来步骤会多一点，不过，读者不用担心，笔者将以实例一步一步讲解，相信读完本章读者也可以很轻松学会使用Python处理PDF文件。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月1日