普通网友 2025-11-07 07:20 采纳率: 98.8%

已采纳

Python PyMuPDF 中文乱码如何解决？

在使用 Python 的 PyMuPDF（fitz）库向 PDF 添加中文文本时，常出现中文乱码或方框问号等问题。这是因为 PyMuPDF 默认不支持中文字体，且未嵌入合适的 TTF 字体文件。即使正确调用 `insert_text()` 方法，若未指定支持中文的字体（如 SimSun、Microsoft YaHei 等），系统将回退到无中文字符集的默认字体，导致渲染失败。如何通过加载外部中文字体文件并正确传入字体参数来解决此问题，是开发者常遇到的技术难点。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

玛勒隔壁的老王 2025-11-07 09:32

关注

一、问题背景与现象分析

在使用 Python 的 PyMuPDF（即 fitz）库向 PDF 文档中插入文本时，开发者普遍遇到一个棘手的问题：中文字符显示为乱码或呈现为方框（□）甚至问号（？）。这种现象并非代码逻辑错误所致，而是由于 PyMuPDF 默认使用的字体不包含中文字符集。

PyMuPDF 内置支持的字体如 Helvetica、Courier 等均属于西方字符编码体系（如 Latin-1），无法映射 Unicode 中的汉字区段（U+4E00–U+9FFF）。当调用 page.insert_text() 方法插入中文但未显式指定中文字体时，系统会回退到默认字体，导致渲染失败。

以下是一个典型的错误示例：

import fitz

doc = fitz.open()
page = doc.new_page()
page.insert_text((72, 72), "你好，世界！", fontsize=12)
doc.save("output.pdf")
doc.close()

上述代码虽然语法正确，但在大多数环境下输出的 PDF 中，“你好，世界！”将显示为方框或乱码。

二、技术原理与核心机制

要深入理解该问题的本质，需掌握以下几个关键点：

字体嵌入机制：PDF 标准要求所有非标准字体必须以子集形式嵌入文档，否则依赖阅读器本地字体。PyMuPDF 允许通过 fontfile 参数加载外部 TTF 或 OTF 字体文件并自动嵌入。
Unicode 支持：现代 PDF 支持 UTF-8 编码文本，但前提是所用字体包含对应的字形（glyphs）。
字体命名与路径：PyMuPDF 使用 fontname 来标识字体，若使用自定义字体文件，必须同时提供 fontfile 路径。

下表列出了常用中文字体及其在 Windows 和 Linux 下的典型路径：

字体名称	Windows 路径	Linux 常见路径	文件名
SimSun（宋体）	C:\Windows\Fonts\simsun.ttc	/usr/share/fonts/truetype/wqy/wqy-zenhei.ttc	simsun.ttc / simsun.ttf
Microsoft YaHei（微软雅黑）	C:\Windows\Fonts\msyh.ttc	-	msyh.ttc
SimHei（黑体）	C:\Windows\Fonts\simhei.ttf	/usr/share/fonts/truetype/dejavu/DejaVuSans.ttf	simhei.ttf
WenQuanYi Zen Hei（文泉驿正黑）	-	/usr/share/fonts/truetype/wqy/wqy-zenhei.ttc	wqy-zenhei.ttc

三、解决方案与实现路径

解决中文乱码的核心在于显式加载支持中文的字体文件，并通过 insert_text() 的 fontname 和 fontfile 参数传入。

以下是完整且可运行的修复方案：

import fitz

def add_chinese_text(pdf_path, output_path, text, pos, font_path=None):
    doc = fitz.open(pdf_path) if pdf_path else fitz.Document()
    page = doc.new_page() if not doc.page_count else doc[0]

    # 指定中文字体文件路径
    if font_path is None:
        font_path = "C:/Windows/Fonts/simsun.ttc"  # 可替换为 msyh.ttc 等

    try:
        # 插入中文文本，指定字体文件
        page.insert_text(
            pos,
            text,
            fontsize=12,
            fontname="china",  # 自定义字体名
            fontfile=font_path,  # 加载外部字体
            encoding=fitz.TEXT_ENCODING_UNICODE
        )
    except RuntimeError as e:
        print(f"字体加载失败: {e}")
        print("请确认字体文件存在且支持中文字符")

    doc.save(output_path)
    doc.close()

# 使用示例
add_chinese_text(None, "chinese_output.pdf", "这是一个测试：PyMuPDF 添加中文", (72, 72), "C:/Windows/Fonts/simsun.ttc")

注意：fontname 是用户自定义标识符，只要唯一即可；fontfile 必须指向有效的 TTF/OTF 文件。

四、高级优化与工程实践

在企业级应用中，还需考虑跨平台兼容性、字体缓存、异常处理等工程化问题。推荐采用如下策略：

封装字体管理类，统一管理常用中文字体路径。
使用 os.path.exists() 验证字体文件是否存在。
对 TTC（TrueType Collection）字体，可通过索引选择具体子字体（如宋体常规体）。
批量插入时预加载字体以提升性能。

以下为增强版字体管理模块示意图：

graph TD A[开始插入中文] --> B{是否已注册字体?} B -- 是 --> C[使用缓存 fontname] B -- 否 --> D[加载字体文件] D --> E[检查文件可读性] E --> F[调用 insert_text 并传入 fontfile] F --> G[成功插入] E --> H[抛出异常并记录日志]

五、常见误区与调试技巧

尽管原理清晰，但在实际开发中仍容易陷入以下误区：

误以为系统字体名（如 "SimSun"）可直接用于 fontname —— 实际上 PyMuPDF 不识别系统字体名，必须通过 fontfile 显式加载。
忽略 encoding=fitz.TEXT_ENCODING_UNICODE 参数，在旧版本中可能导致编码错误。
使用压缩率过高的字体子集导致某些生僻字缺失。
在 Docker 或 CI 环境中缺少中文字体文件，导致部署失败。

调试建议：

打印 fitz.get_font_list() 查看当前可用字体。
使用 PDF 阅读器的“字体信息”功能验证目标字体是否已嵌入。
在 Linux 上可通过 fc-list :lang=zh 查询系统中文字体。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

解决python Markdown模块乱码的问题
2020-12-31 23:03

安装完成直接转换并保存为html时，发现出现中文乱码的情况用编辑器打开发现是缺少utf8编码所以只需要在头增加一行<meta http-equiv=”Content-Type” content=”text/html; charset=utf-8″ /> 即可查询...
解决Python中文乱码问题的策略与技巧
2023-11-21 09:19

傻啦嘿哟的博客解决Python中文乱码问题需要综合考虑多种因素，包括编码方式、区域设置、库和框架的选择等。通过使用合适的编码方式、多语言支持、文本编辑器和异常处理等技巧，可以更好地处理Python中的中文乱码问题。同时，根据...
PyMuPDF DLL问题和乱码问题
2018-01-27 23:36

西风西风西风的博客问题1：编程环境windows7，anaconda python3.5 DLL问题，我在程序中更新了 vs2015，后基本可以调用PyMuPDF了问题2有很多网友包括知乎的网友说PyMupdf有bug，中文有乱码！其实这是误解！只需要修改字符库即可。 ...
Python编程：PDF 处理库
2025-06-24 20:53

倔强老吕的博客 PyPDF2 是一个纯 Python 的 PDF 处理库，可以读取、分割、合并、转换和提取 PDF 内容
利用Python+DeepSeek实现多格式文件内容提取与汇总
2026-04-02 02:37

tomatop的博客信息爆炸的时代，企业、研究机构乃至个人都面临着海量文档信息...本文将详细介绍如何利用强大的大语言模型及其API接口，结合编程语言及其丰富的生态系统，构建一套自动化、智能化的多格式文件内容提取与汇总解决方案。
Python+Ollama 本地部署大模型保姆级教程｜从零搭建私有化 AI
2026-04-27 22:55

编程实战派的博客 Ollama 作为目前最轻量化、部署最简单、生态最全的开源大模型运行工具，支持 Windows、Linux、Mac 全平台，一行命令即可下载、运行、管理百款开源大模型，结合 Python 语言可以快速实现对话机器人、文档问答、代码...
所有AI编程工具都有同一个文档盲区（Claude Code × GPT-4o × Gemini × Cursor × MinerU）
2026-04-14 10:33

王莎莎-MinerU的博客文档解析工具静默失败问题分析与解决方案当前主流AI工具（Claude Code、GPT-4o、Gemini、Cursor）在处理PDF文档时存在严重缺陷：会静默截断内容（通常只读取前10-20页），导致表格结构丢失、公式变乱码等问题。...
Star 6.9k！开源的全能Markdown格式文件提取器：MinerU
2024-08-24 14:19

做梦都在改BUG的博客多语言识别：支持176种语言的准确识别，无论是何种语言的文献，都能轻松处理。作为一个程序员，Markdown格式文档使用的比较多，对于md格式的阅读习惯很深，而MinerU可以轻松实现从各种PDF文档、网页和电子书中提取...
【办公自动化】用Python批量从上市公司年报中获取主要业务信息
2023-09-14 14:29

艾派森的博客如果文章对你有帮助的话，欢迎评论点赞收藏加关注+ 目录一、Python处理PDF 二、用Python将PDF文件转存为图片三、往期推荐四、文末推荐与福利一、Python处理PDF Python处理PDF的好处自动化和批量处理：...
PyMuPDF 1.24.4 中文文档（五）
2024-06-20 10:39

绝不原创的飞龙的博客在 PDF 中的可选内容是根据某些条件显示或隐藏文档部分的一种方式：当使用支持的 PDF 消费者（查看器）或通过编程设置参数为 ON 或 OFF 时。这种能力在诸如 CAD 图纸、分层艺术品、地图和多语言文档等项目中非常有用...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月7日