CodeMaster 2025-11-02 01:05 采纳率: 98.9%

已采纳

fitz.open打开PDF中文乱码如何解决？

使用 `fitz.open()` 打开含中文文本的 PDF 时，提取文字出现乱码是常见问题。其主因是 PDF 中的中文字符使用了未嵌入或非标准编码的字体，导致 PyMuPDF（fitz）无法正确解析字形到 Unicode 的映射。尤其在扫描版或部分压缩处理的 PDF 中更为明显。如何解决 fitz.open 打开 PDF 中文乱码问题？可尝试嵌入支持中文的字体、启用 OCR 处理，或结合 `pdfplumber`、`PyPDF2` 等工具辅助识别。此外，确保系统中安装了中文字体库，并在必要时通过 `fitz.Font` 手动指定编码映射，也是提升中文识别准确率的关键措施。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

Nek0K1ng 2025-11-02 08:43

关注

1. 问题背景与现象描述

在使用 fitz.open()（即 PyMuPDF）处理包含中文文本的 PDF 文件时，开发者常遇到提取文字出现乱码的问题。该现象表现为原本应为“中文”的字符被解析为“□□”、“”或无意义的符号。

此问题的根本原因在于 PDF 文档中的中文字体未正确嵌入或使用了非标准编码方案，导致 PyMuPDF 无法建立字形（glyph）到 Unicode 字符的准确映射关系。

尤其在以下场景中更为普遍：

扫描生成的 PDF（图像型 PDF）
经过压缩或优化处理的文档
使用特殊字体但未嵌入子集的排版文件
跨平台创建且未统一编码规范的 PDF

2. 核心机制分析：为何 fitz 提取中文会乱码？

PDF 文件通过“字体字典”和“ToUnicode CMap”来实现字符映射。当 PDF 使用自定义或缺失 ToUnicode 映射表的中文字体时，fitz 将无法将字形索引转换为对应的 Unicode 码位。

以下是典型错误路径流程图：

mermaid
    graph TD
        A[打开PDF] --> B{是否存在ToUnicode CMap?}
        B -- 否 --> C[尝试默认编码]
        C --> D[映射失败 → 输出乱码]
        B -- 是 --> E[正常解析Unicode]
        E --> F[正确显示中文]

3. 解决方案层级结构（由浅入深）

层级	方法	适用场景	实施难度
1	检查系统字体支持	本地环境缺失中文字体	低
2	启用 pdfplumber 辅助解析	结构化文本提取	中
3	结合 OCR 引擎（如 Tesseract）	扫描版PDF	高
4	手动注入 ToUnicode 映射	高级修复定制字体	极高
5	替换字体并重渲染页面	可编辑PDF修改	高

4. 实践方案一：确保系统具备中文字体支持

许多乱码问题源于操作系统未安装常用中文字体（如 SimSun、Microsoft YaHei、FangSong）。可通过以下命令验证：

# Linux 查看已安装字体
fc-list :lang=zh

# Windows 检查 C:\Windows\Fonts 是否存在 simsun.ttc

若缺失，建议安装开源字体如 Noto Sans CJK 或思源黑体，并重启 Python 运行环境。

5. 实践方案二：结合 pdfplumber 提升解析能力

pdfplumber 在底层也依赖 fitz，但其对文本布局和编码处理更细致。示例代码如下：

import pdfplumber

with pdfplumber.open("chinese_doc.pdf") as pdf:
    for page in pdf.pages:
        text = page.extract_text()
        print(text)  # 更大概率保留中文

注意：仍受限于原始 PDF 的编码完整性，不适用于图像型文档。

6. 实践方案三：启用 OCR 处理图像型 PDF

对于扫描件或纯图像 PDF，必须采用 OCR 技术进行识别。推荐使用 pytesseract + fitz 联合处理：

import fitz
import pytesseract
from PIL import Image

doc = fitz.open("scanned.pdf")
for page_num in range(len(doc)):
    pix = doc[page_num].get_pixmap(dpi=150)
    img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
    text = pytesseract.image_to_string(img, lang='chi_sim+eng')
    print(f"Page {page_num + 1}:\n{text}")

7. 实践方案四：手动修复字体编码映射

针对特定字体缺失 ToUnicode 表的情况，可利用 fitz.Font 手动构建映射：

font = fitz.Font("china-ss")  # 内置支持宋体
cmap = font.get_cmap()  # 获取编码映射
# 可导出至 CMap 文件供后续注入

进阶做法是使用工具如 AFMParser 或 FontTools 提取字体语义并重建 CMap。

8. 综合策略建议

面对复杂 PDF 中文乱码问题，建议采取分层判断策略：

先用 pdfplumber 尝试直接提取
检测是否为图像型 PDF（通过 page.get_images()）
若是图像，则切换至 OCR 流程
若为文本型但乱码，检查字体嵌入状态：page.getFontList()
确认是否缺少 ToUnicode 表
考虑使用 Ghostscript 预处理优化 PDF 结构
最后手段：人工标注样本 + 模型微调识别

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

PyMuPDF DLL问题和乱码问题
2018-01-27 23:36

西风西风西风的博客问题1：编程环境windows7...问题2有很多网友包括知乎的网友说PyMupdf有bug，中文有乱码！其实这是误解！只需要修改字符库即可。这是结果：下面是代码： # -*- coding:utf-8 -*- import fitz #import sys,os
PDF文件名显示不对？3步搞定Acrobat文档标签与文件名同步（无需Word模板）
2025-09-18 06:28

e1f2g的博客本文深入剖析了PDF文件名与Acrobat标签页显示不一致的根源——元数据错位，并提供了无需原始Word模板的3步修复方案。通过精准诊断、修改或清除标题元数据，以及利用Acrobat动作向导或Python脚本进行批量处理，彻底...
墨语灵犀实战教程：批量处理PDF外文论文并生成带留白排版的中文译稿
2026-01-09 16:55

数据冰山的博客本文介绍了如何在星图GPU平台上自动化部署墨语灵犀 (Moyu Lingxi) 镜像，...该方案能批量处理PDF外文论文，通过大模型进行精准翻译，并自动生成带有疏朗留白排版的中文译稿，极大提升了科研人员的文献阅读与整理效率。
别再用Excel手抠发票了！Python暴力解析PDF，文件名金额自动追杀差额（附源码|白嫖救发）财务小姐姐防秃力觉醒！
2025-08-26 14:45

ERP老兵-冷溪虎山的博客文章展示了如何用fitz库和正则表达式从PDF发票中智能提取金额、公司名等关键数据，并实现自动校验。核心代码包含文件名金额比对、银行关键词过滤等实用功能，最终输出Excel报表。作者以"ERP土匪"自居，...
RAG 系统搭建方案（完整版）
2026-03-16 09:34

好运的阿财的博客 ~500MB ⭐⭐⭐⭐⭐ bge-base-zh 768 中文 ~500MB ⭐⭐⭐⭐ text-embedding-3-small 1536 多语言 API 调用 ⭐⭐⭐ 核心功能： class EmbeddingModel: def __init__(self, model_name='m3e-base'): self.model = ...
通义千问2.5文档解析能力：PDF提取部署教程
2026-01-19 05:33

我就是夏迎春的博客本文介绍了基于星图GPU平台自动化部署“通义千问2.5-7B-Instruct大型语言模型二次开发构建by113小贝”镜像的完整流程，重点实现PDF文档内容提取与智能问答功能。该方案结合Hugging Face与Gradio框架，支持快速搭建...
一键PDF转Word：转换器使用攻略
2025-07-27 19:56

永不放弃yes的博客在当今数字化的世界中，文档格式的转换变得越来越普遍和必要，尤其是将PDF文件转换为Word文档。这个过程看似简单，实际上涉及一系列的步骤和技术考量，以确保转换后的文件保持原有内容和格式的完整性。
PDF-Extract-Kit性能对比：开源PDF工具横向评测
2026-01-11 05:06

宁南山的博客 PDF-Extract-Kit 是一个基于深度学习模型的PDF内容智能提取工具箱，其最大特点是模块化设计 + WebUI交互界面，支持从布局分析到内容提取的全流程自动化处理。功能最全的一站式解决方案集成布局、公式、表格、OCR四大...
批量文档处理自动化：DeepSeek + Python 实现多格式文件内容提取与汇总
2026-01-03 17:04

AC赳赳老秦的博客本文介绍如何利用DeepSeek大语言模型和Python实现多格式文档自动化处理。系统通过Python库提取PDF、Word、Excel等文件的文本内容，结合OCR处理扫描件，再调用DeepSeek API进行智能分析，包括摘要生成、关键信息抽取...
Open Interpreter多语言支持详解：Qwen3-4B实现跨语言代码生成
2026-02-14 00:12

沉默的大羚羊的博客本文介绍了如何在星图GPU平台上自动化部署open interpreter镜像，结合Qwen3-4B...用户可通过自然语言指令（如中文）直接驱动本地环境完成数据清洗、文件批量处理等典型任务，无需编程基础，兼顾隐私安全与执行效率。
【实战指南】基于PaddleOCR的PDF简历信息自动化提取方案
2025-07-29 10:03

生活碎片的博客本文提供了一套基于PaddleOCR的PDF简历信息自动化提取实战方案。详细介绍了从PDF转高清图片、调用PaddleOCR进行文字提取，到结果整合与临时文件管理的完整流程。该方案能有效处理格式多样的简历，将非结构化文档转化...
利用Python+DeepSeek实现多格式文件内容提取与汇总
2026-04-02 02:37

tomatop的博客信息爆炸的时代，企业、研究机构乃至个人都面临着海量文档信息...本文将详细介绍如何利用强大的大语言模型及其API接口，结合编程语言及其丰富的生态系统，构建一套自动化、智能化的多格式文件内容提取与汇总解决方案。
python编程的中文问题
2016-06-15 16:09

fitzzhang的博客字符编码问题是每个程序员必定会遇到的，同样，python的中文问题一直是一个非常令人头疼的问题，本文将介绍Python中涉及到中文细节问题。建议在阅读这篇文章之前，先前往字符编码详解这篇文章了解相关字符编码的...
PyMuPDF 1.24.4 中文文档（五）
2024-06-20 10:39

绝不原创的飞龙的博客在 PDF 中的可选内容是根据某些条件显示或隐藏文档部分的一种方式：当使用支持的 PDF 消费者（查看器）或通过编程设置参数为 ON 或 OFF 时。这种能力在诸如 CAD 图纸、分层艺术品、地图和多语言文档等项目中非常有用...
解决Ubuntu中WPS中文乱码的symbol-fonts_1.1_all字体包安装指南
2025-08-16 08:14

Fitz Hoo的博客解决Ubuntu中文乱码问题通常涉及系统本地化设置、字体安装和配置，以及应用程序自身的兼容性优化。本章将从这几个方面深入探讨，提供一套切实可行的解决方案。对于大多数Linux发行版来说，字体包通常是deb格式的。...
Langchain-Chatchat知识库构建与管理
2025-03-26 15:10

卢红梓的博客 import fitz # pyMuPDF ocr = get_ocr() doc = fitz.open(filepath) resp = "" for i, page in enumerate(doc): text = page.get_text("") resp += text + "\n" # OCR处理图片内容 img_list = page.get_image_info...
python 开发个人日常操作笔记
2020-07-09 16:21

昵称得改的博客 redis 设置密码 23, func设置备注模板 24, appid 限制只允许服务器地址请求 25, ubantu zip 文件解压乱码问题 26, conda 创建和安装新环境 27， virtualenv 创建和安装新环境 28, ubantu wine 微信，qq 中文乱码问题...
PyMuPDF 1.24.4 中文文档（十三）
2024-06-20 10:46

绝不原创的飞龙的博客附录 2：关于嵌入式文件...从版本 1.4 开始，PDF 支持将任意文件作为 PDF 文档文件的一部分（“嵌入式文件流”）嵌入其中（参见章节“7.11.4 嵌入式文件流”，第 103 页的 Adobe PDF 参考手册）。在许多方面，这与 ZI
一键启动Qwen3-4B-Instruct-2507：本地知识管理神器
2026-01-16 07:14

河马和荷花的博客提取PDF文本 def extract_text_from_pdf(pdf_path): doc = fitz.open(pdf_path) full_text = "" for page in doc: full_text += page.get_text() return full_text[:250000] # 截断至支持范围 # 2. 初始化向量库...
Qwen2.5-7B科研应用：论文摘要生成系统部署实操
2026-01-10 04:57

崔庆才丨静觅的博客大多数科研论文以 PDF 格式存在，需先进行结构化解析。推荐使用PyMuPDF（fitz）库提取文本并保留章节结构。text = ""# 示例调用print(f"提取文本长度：{len(paper_text)} 字符")该方法能较好保留原始排版逻辑，避免...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月2日