麒麟系统下PDF转Word时中文乱码或格式错乱如何解决？

在麒麟操作系统（Kylin OS）下将PDF转为Word时，常因中文字体缺失、OCR引擎不支持GB18030/UTF-8编码或LibreOffice/WPS for Linux对PDF文本层解析能力不足，导致中文显示为方框、乱码或段落错位。典型表现为：复制文本出现“□□□”，表格塌陷，页眉页脚丢失，或简繁体混排异常。该问题并非单纯软件兼容性问题，根源在于麒麟系统默认未预装完整中文字体（如Noto Sans CJK、Source Han Serif），且多数开源PDF工具（如pdf2text、poppler-utils）未启用中文语言包与OCR后处理。此外，部分PDF为扫描图像型（无文本层），若未调用支持中文的OCR引擎（如PaddleOCR或Tesseract-CHI），直接转换必然失败。需结合字体配置、OCR适配与格式保留策略协同解决。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

杨良枝 2026-02-28 15:50

关注

```html

一、现象层：典型故障表征与日志线索定位

复制PDF文本出现“□□□”或“”——字体映射失败的直接信号
LibreOffice Writer中段落缩进错乱、首行悬挂失效——Unicode双向算法（BIDI）未启用或GB18030解码链断裂
WPS for Linux打开后页眉页脚空白、表格边框消失——PDF结构树（Tagged PDF）解析器缺失CJK语义支持
dmesg | grep -i font 显示 Fontconfig warning: no elements found——系统级字体缓存未重建

二、配置层：麒麟OS字体生态重构

麒麟V10 SP1默认仅预装fonts-wqy-microhei（文泉驿微米黑），但该字体不包含GB18030全字符集（缺7万+汉字），且无OpenType GPOS/GSUB特性，无法支撑Word级排版。需执行：

sudo apt update && sudo apt install -y fonts-noto-cjk fonts-source-han-serif-cn ttf-wqy-zenhei
sudo fc-cache -fv
sudo ln -sf /usr/share/fonts/noto-cjk /usr/share/fonts/truetype/noto-cjk

验证命令：fc-list :lang=zh-cn | grep -E "(Noto|Source|WenQuanYi)" 应返回≥3个完整字体族。

三、工具链层：PDF解析引擎选型与中文适配

工具	是否支持Tagged PDF	GB18030解码	OCR嵌入能力	麒麟兼容性
poppler-utils (pdfinfo/pdftotext)	✓（需-raw参数）	✗（默认Latin1）	✗	需编译--enable-zlib --with-cairo
pdf2text (Python-pdfminer.six)	✓（Laparams.detect_vertical=True）	✓（decode='utf-8'）	✗	pip3 install --no-binary :all: pdfminer.six
Apache PDFBox (Java)	✓（PDPageContentStream）	✓（setEncoding("GB18030")）	✓（Tesseract桥接）	需OpenJDK 11+及fontconfig-java补丁

四、OCR层：扫描型PDF的端到端中文识别闭环

对图像型PDF，必须构建PaddleOCR v2.6+推理流水线（非Tesseract-CHI，因其在ARM64麒麟上无预编译wheel）：

pip3 install paddlepaddle-gpu==2.4.2.post112 paddlenlp==2.6.2
git clone https://github.com/PaddlePaddle/PaddleOCR.git
cd PaddleOCR && python3 tools/infer/predict_system.py \
  --image_dir="/path/to/pdf_pages/" \
  --det_model_dir="./inference/ch_PP-OCRv4_det_infer/" \
  --rec_model_dir="./inference/ch_PP-OCRv4_rec_infer/" \
  --cls_model_dir="./inference/ch_ppocr_mobile_v2.0_cls_infer/" \
  --use_gpu=True --gpu_mem=2000

关键配置：rec_char_dict_path指向ppocr/utils/ppocr_keys_v1.txt（含GB18030前15000码位），并启用--rec_char_type ch。

五、格式保真层：从文本提取到Word DOM重建

graph LR A[PDF输入] --> B{是否含文本层？} B -->|是| C[PDFBox提取带位置信息的TextChunk] B -->|否| D[PaddleOCR输出JSON：{x,y,width,height,text}] C & D --> E[基于坐标聚类生成Paragraph Block] E --> F[按CSS Box Model计算margin/padding/border] F --> G[用python-docx构建Section/Paragraph/Table对象] G --> H[注入Noto Sans CJK SC字体族与UTF-8编码] H --> I[保存为.docx]

六、验证与兜底策略

自动化校验脚本：docx2python test.docx | grep -o "□\|" | wc -l 结果应为0
简繁体混排测试：使用opencc -i input.txt -o output.txt -c zhs2zht.ini验证转换前后字形一致性
兜底方案：当表格塌陷时，启用tabula-py独立抽取表格区域，再merge至docx的Table对象
性能监控：systemctl status fontconfig.service 确保守护进程活跃，避免fc-match超时

```

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

麒麟系统 word转为pdf
2025-09-20 11:53

AI算法网奇的博客麒麟系统 word转为pdf
5个适用于Linux系统的PDF转Word工具
2024-08-08 19:56

ONLYOFFICE的博客凭借其跨平台和设备的统一标准、兼容性和规模小巧等主要优点，可携带文档格式（PDF）可谓最主流的文件格式之一。
解决docker环境下aspose-words转换word成pdf后乱码问题
2024-12-16 17:13

LYRIQ777的博客环境：docker部署工具：Jenkins需求：本地上传的word文档需要转换成pdf问题：转换之后的pdf文档出现小框框（乱码）
麒麟系统WPS word文字文档公式符号乱码解决办法
2024-06-19 10:43

浮游生物爱吃烤肉的博客公式和项目符号乱码问题原因都是缺少字体导致的，经测试影响麒麟系统WPS word文字文档公式符号的字体可通过添加上述文章中百度网盘中所提供的字体解决。
pdfbox麒麟docker转PDF乱码问题
2024-09-29 10:56

carry杰的博客 Alibaba_Dragonwell_Standard_8.20.21_aarch64_linux 构建基础镜像解决了这个问题。为了方便各位这里直接给出docker容器基础镜像（java）构建...1、这个转pdf乱码基本就是字符集引起的问题。我采用了阿里云的开源。
Linux下Word转Pdf格式后乱码问题
2021-12-03 11:32

a2343684的博客 Linux下Word转Pdf格式后乱码问题
linux服务器上word转pdf后乱码问题
2025-08-05 15:54

liunim90的博客重启服务器！！！重启服务器！！！重启服务器！！！重启前记得先看下有哪些应用在上面，因为重启后，这些应用都要启动起来。
银河麒麟系统PDF转Word
2022-10-31 09:41

whbo2022的博客安卓手机PDF转换器
linux系统pdf文件转word文档,PDF如何转换为Word文件？用它，就是这么简单！
2021-05-16 18:37

Super-IronMan的博客马上下载万能PDF转换器众所周之，PDF是一种便携式文档格式，PDF格式有很多利于我们工作的优点，就比如说PDF文件格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。该格式文件还...
麒麟系统java调用wps转pdf,急java调用WPS或pdfcreator的com接口实现doc转pdf解决方法
2021-04-13 01:35

ku drei的博客急急急java调用WPS或pdfcreator的com接口实现doc转pdf各位大虾：我想把word文件生成PDF，然后网上找了方法http://hacker507.iteye.com/blog/1458790但是我的代码确不能执行packagecom.sinobpo.hsda.util;importcom....
【迁移适配实战】解决KylinOS下PDF中文乱码问题——字体兼容性深度调优
2025-05-22 10:59

O.0.o的博客在将Word转PDF工具迁移至ARM64架构的银河麒麟操作系统（KylinOS V10）后，生成的PDF文档出现中文字体显示为方框的问题。通过分析，发现KylinOS默认未携带Windows常用字体，且wkhtmltopdf对开源字体兼容性配置缺失。...
银河麒麟V10下如何将TXT文件转为PDF？
2024-09-28 10:28

Seal^_^的博客在银河麒麟高级服务器操作系统V10中，将TXT文件转换为PDF文件可以通过简单的几步完成。
解决麒麟系统救援模式下乱码问题
2024-08-17 10:15

明灰的博客【代码】解决麒麟系统救援模式下乱码问题。
kkfile中发票pdf预览中文乱码 windows字体包
2024-06-26 10:54

在本例中，"kkfile"在预览发票PDF时出现中文乱码，这意味着系统可能缺少处理这些发票中特殊字符的字体。解决方法是下载并安装压缩包中提供的字体文件。这个压缩包被命名为"kkfile发票预览乱码需要的字体"，显然包含...
麒麟系统中PDF和图片的互转
2025-03-06 09:17

链子997的博客 PDF、图片互转
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月28日