问题：PDFBox处理字体时出现“No glyph for U+FFFD in font”错误如何解决？

在使用PDFBox处理PDF文档时，出现“No glyph for U+FFFD in font”错误，通常表示当前字体无法正确映射某个字符。U+FFFD是Unicode中的替换字符，代表无法识别或解码的字符。常见原因包括字体未正确嵌入、字符编码不匹配或使用了不支持特定字符集的字体（如标准14字体）。解决方法包括：确保字体嵌入并可用、使用支持目标字符集的字体（如TrueType字体）、检查字符编码方式、或在读取PDF时启用字体替换策略。通过合理配置PDFBox字体处理逻辑，可有效避免该问题。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

Qianwei Cheng 2025-08-28 23:40

关注

1. 问题背景与现象描述

在使用 Apache PDFBox 处理 PDF 文档时，开发者可能会遇到如下错误信息：No glyph for U+FFFD in font。该错误通常表示 PDFBox 在尝试渲染或解析某个字符时，发现当前字体中不存在该字符的字形（glyph），从而使用 Unicode 替换字符 U+FFFD（）进行替代。

这种问题常见于处理包含非 ASCII 字符（如中文、日文、韩文等）的文档，尤其是在使用不支持这些字符集的标准字体（如 PDF 标准14字体）时。

2. 错误成因分析

该错误的根本原因通常涉及以下几个方面：

字体未正确嵌入：PDF 中使用的字体未嵌入或部分嵌入，导致 PDFBox 无法获取完整的字形信息。
字符编码不匹配：文本内容与字体编码方式不一致，导致字符无法正确映射。
字体不支持特定字符集：使用了标准14字体（如 Helvetica、Times-Roman）等不支持中文或特殊字符的字体。
缺失字体替代策略：在字体缺失或不支持时，未启用或配置合适的字体替换机制。

3. 解决方案与实现方式

针对上述问题，可以采用以下多种方式解决：

解决方案	说明	适用场景
嵌入字体	在生成 PDF 时，确保字体被完整嵌入到 PDF 文件中。	适用于需要精确控制字体显示的场景。
使用 TrueType 字体	使用支持广泛字符集的 TrueType 字体（如 SimSun、Arial Unicode MS）。	适用于多语言或非 ASCII 文本处理。
检查字符编码	确保文本数据与字体编码方式一致（如 UTF-8、Unicode）。	适用于从外部系统导入文本内容时。
启用字体替换策略	在读取 PDF 时启用 PDFBox 的字体替换策略（如使用 `PDFontDescriptor` 和 `FontProvider`）。	适用于处理字体缺失或损坏的 PDF 文件。

4. 代码示例与实现细节

以下是一个使用 PDFBox 加载 TrueType 字体并嵌入到 PDF 中的代码示例：


        PDDocument document = new PDDocument();
        PDPage page = new PDPage();
        document.addPage(page);

        // 加载 TrueType 字体
        PDType0Font font = PDType0Font.load(document, new File("simsun.ttc"), true);

        PDPageContentStream contentStream = new PDPageContentStream(document, page);
        contentStream.setFont(font, 12);
        contentStream.beginText();
        contentStream.newLineAtOffset(50, 700);
        contentStream.showText("这是一个测试文本");
        contentStream.endText();
        contentStream.close();

        document.save("output_with_font.pdf");
        document.close();

5. 故障排查流程图

以下是一个用于排查“No glyph for U+FFFD in font”问题的流程图：

            graph TD
                A[开始] --> B{字体是否嵌入?}
                B -- 是 --> C{是否使用标准14字体?}
                B -- 否 --> D[嵌入缺失字体]
                C -- 是 --> E[替换为TrueType字体]
                C -- 否 --> F{字符编码是否一致?}
                F -- 是 --> G[启用字体替换策略]
                F -- 否 --> H[统一编码格式]
                G --> I[完成]
                H --> I
                E --> I
                D --> I

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

PDFBox 在 Linux 报 “No glyph for U+535A (博)” —— 一次子集化踩坑与完整排查清单
2025-07-04 15:59

黑风风的博客如果你在 PDFBox 里动态写中文，还想持续子集化省体积，就必须让 PDFBox **一次性“看到所有汉字”**；否则就全量嵌入，图省心最稳。
pdfbox转图片出现框框 No glyph for 9 (CID 0000) in font STSong-Light
2021-01-12 12:39

yandong025的博客公司其他业务系统生成的pdf默认字体为STSong-Light 该项目需要多处部署，且win10系统下默认无该字体 org\apache\pdfbox\pdfbox\2.0.22\pdfbox-2.0.22.jar!\org\apache\pdfbox\pdmodel\font\FontMapperImpl.class ...
pdfbox pdf转换图片时中文丢失，变成方框，提示No glyph for xxx in font STSong-Light
2024-05-16 14:49

辉机辉过天空的博客原因是由于服务器字体缺失，pdfbox在转换时找不到合适的字体。即可，由于我这边字体是放在线上，所以多了一步url转file的过程。，恭喜你，找到pdfbox初始化字体库缓存的路口了，在下面追加一行。方法(我的是2.0.12)...
Linux pdfbox PDF生成图片时 No glyph for 26435 (CID 0c83) in font STSong-Light
2025-01-11 00:52

天堂售票处的博客 Linux pdfbox PDF生成图片时 No glyph for 26435 (CID 0c83) in font STSong-Light
Java 解决pdfbox转图片显示中文乱码 No glyph for 165 (CID 5752) in font STSong-Light
2024-04-28 02:11

熙街丶一人的博客在开发PDF转JPG图片后，图片显示中文乱码，以下为具体示例：截图可以看到￥符号无法转换为乱码代码已经提示我们STSong-Light字体中165符文不存在，...（如果你们出现不存在某个字体的报错，接下来也可以跟我一样操作）
pdfbox将pdf文件转为图片时报错：No glyph for 20339 (CID 0844) in font STSong-Light
2022-04-28 10:22

Super_Song_的博客 java中使用pdfbox工具将pdf文件转为图片时报错：No glyph for 20339 (CID 0844) in font STSong-Light 导出的图片若有中文的位置，出现框框或者乱码问题原因 pdfbox默认使用STSong-Light字体，且当前环境中没有该...
pdfbox将pdf转换成图片时，提示STSong-Light字体缺失：No glyph for 20154 (CID 0ca6) in font STSong-Light
2021-12-09 11:27

fanqiuhang的博客把pdf文件转为图片展示，但是展示出来的中文都是口口，日志显示一堆No glyph for * (CID *) in font STSong-Light。反正原因就是字体缺失造成的。上述类中的63行打了一个日志表示找不到字体。大概就是这样的： ...
Java PDFBox 问题：U+8FD9 (‘.notdef‘) is not available in the font Helvetica-Bold
2025-09-23 19:05

我命由我12345的博客 Java PDFBox 问题：U+8FD9 ('.notdef') is not available in the font Helvetica-Bold
【pdfbox】No Unicode mapping for CID+24314 (24314) in font NUYLPX+SimSun
2024-03-14 17:27

筱星_wu的博客 pdfbox读取pdf文件抛出【No Unicode mapping for CID+40 (40) in font NUYLPX+SimSun】中文字体编码问题
Bug：pdfbox缺少字体、字符串过长问题、Base64转换工具类、坐标互转工具类
2023-03-23 20:27

NPE~的博客 Bug：pdfbox缺少字体、字符串过长问题、Base64转换工具类
pdfbox 转图片中文乱码处理
2019-07-30 18:03

都市桃源的博客 2019-07-30 17:04:05 [ WARN] - org.apache.pdfbox.rendering.CIDType0Glyph2D -CIDType0Glyph2D.java(63) -No glyph for 21487 (CID 0956) in font STSongStd-Light 问题起因之前系统正常运行,迁移了系统到另一.....
pdfbox：Apache PDFBox的镜像
2021-02-03 20:12

Apache PDFBox库是用于处理PDF文档的开源Java工具。该项目允许创建新的PDF文档，操作现有文档以及从文档中提取内容的功能。 PDFBox还包括几个命令行实用程序。 PDFBox是根据Apache许可版本2.0发布的。 PDFBox是...
pdfbox-simple:简单的PDFBox包装器
2021-05-04 19:56

安装$ npm install pdfbox-simple用法( async ( ) => { const PDFBox = require ( "pdfbox" ) const pdfbox = new PDFBox ( ) await pdfbox . exec ( "PDFMerger" , "foo.pdf" , "bar.pdf" , "quux.pdf" )} ...
常用中文字体文件解决：linux、window java程序导出pdf\word、excel文字字体显示异常、字体样式不一样
2025-08-26 10:16

此外，版权问题也是嵌入字体时必须考虑的因素，必须确保使用字体文件不侵犯任何第三方的版权。在具体实现上，Java开发者可以通过设置字体属性来指定嵌入的字体文件。在导出PDF时，可以使用iText或Apache PDFBox等...
PdfBox-Android:Apache PdfBox项目已移植为可在Android上使用
2021-04-28 08:19

PdfBox-Android Apache的PdfBox库的端口可在Android上使用。大多数功能应在现在实现。可以将功能请求添加到问题跟踪器。可以从jcenter作为Gradle依赖项添加稳定的发行版。该项目的主要代码是根据Apache 2.0...
Apache PDFBox
2024-08-24 23:18

E的工程笔记的博客一、关于 Apache PDFBox...字体处理 XMP元数据使用Maven包含依赖项 2、可选组件 JAI Image I/O 公钥加密和签名激活和绑定从命令行使用其他库三、入门 1、Maven 2、渲染性能四、命令行工具 1、解密 2、加密 3、提取
PDFBox PDF处理类库 v3.0.0 alpha2.zip
2024-04-05 20:42

PDFBox是Apache软件基金会的一个开源项目，专门用于处理PDF（Portable Document Format）文档的Java类库。这个压缩包“PDFBox PDF处理类库 v3.0.0 alpha2.zip”包含的是PDFBox的最新预发布版本，即v3.0.0的alpha2...
PDFBox PDF处理类库 v1.8.16.zip
2024-04-05 20:38

PDFBox是Apache软件基金会开发的一个开源Java库，用于处理PDF（Portable Document Format）文档。它提供了丰富的API，使得开发者能够创建、编辑、读取、签署以及处理PDF文档。在这个"PDFBox PDF处理类库 v1.8.16.zip...
pdfbox转图片所需字体
2018-07-30 09:01

当PDFBox尝试将这样的PDF转换为图片时，如果目标系统缺少相应的字体，转换过程就可能出现问题。为了解决文字丢失的问题，我们可以采取以下步骤： 1. **识别缺失字体**：首先，我们需要找出PDF文档中缺失的字体。...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月28日