请问java中如何根据已有word文件快速生成目录和页码

我使用docx4j根据已有文件（文件中有图片、表格、复选框等非文字内容）生成目录和页码，虽然可以生成，但是耗时太长，需要70多秒，且有很多ERROR和WARN日志，需要优化，并缩短时间消耗。
代码如下

import org.docx4j.openpackaging.packages.WordprocessingMLPackage;
import org.docx4j.toc.TocGenerator;

import java.io.File;


public class WordWithTOCDocx4j4 {

    public static void main(String[] args) throws Exception {
        // 指定DOCX文件路径
        File docxFile = new File("D:\\projects\\test\\a.docx");
        // 加载DOCX文件并创建WordprocessingMLPackage对象
        WordprocessingMLPackage wordMLPackage = WordprocessingMLPackage.load(docxFile);
        TocGenerator tocGenerator = new TocGenerator(wordMLPackage);
        tocGenerator.generateToc( 0, " TOC \\o \"1-3\" \\h \\z \\u ", false);
        // 保存文档
        wordMLPackage.save(new File("D:\\projects\\test\\aWithTOC222.docx"));
    }

}

maven依赖包如下：

<properties>
    <docx4j.version>11.4.8</docx4j.version>
</properties>
  
<dependency>
  <groupId>org.docx4j</groupId>
  <artifactId>docx4j-core</artifactId>
  <version>${docx4j.version}</version>
</dependency>
<dependency>
  <groupId>org.docx4j</groupId>
  <artifactId>docx4j-JAXB-MOXy</artifactId>
  <version>${docx4j.version}</version>
  <exclusions>
    <exclusion>
      <groupId>org.docx4j</groupId>
      <artifactId>docx4j-core</artifactId>
    </exclusion>
  </exclusions>
</dependency>

<dependency>
  <groupId>org.docx4j</groupId>
  <artifactId>docx4j-ImportXHTML</artifactId>
  <version>${docx4j.version}</version>
  <exclusions>
    <exclusion>
      <groupId>org.docx4j</groupId>
      <artifactId>docx4j-core</artifactId>
    </exclusion>
  </exclusions>
</dependency>

<dependency>
  <groupId>org.docx4j</groupId>
  <artifactId>docx4j-export-fo</artifactId>
  <version>${docx4j.version}</version>
  <exclusions>
    <exclusion>
      <groupId>org.docx4j</groupId>
      <artifactId>docx4j-core</artifactId>
    </exclusion>
  </exclusions>
</dependency>

通过日志分析，像是 org.docx4j和org.apache.fop.apps.FOUserAgent无法获取可用的字体和格式，耗费了较多的时间并且出现了错误。我想通过给fop增加字体样式的设置，但是没有找到相关的方法。请大家帮忙看看，谢谢。

ERROR日志如下：

ERROR org.docx4j.model.listnumbering.ListLevel Unhandled numFmt: CHINESE_COUNTING
ERROR org.docx4j.wml.Highlight Can't set w:highlight from 'none'
ERROR org.docx4j.model.images.WordXmlPictureE10 org.docx4j.vml.CTShape
ERROR org.docx4j.model.images.WordXmlPictureE10 Couldn't find shape!
ERROR org.docx4j.model.images.WordXmlPictureE10 WordXmlPictureE10 object was null!
ERROR org.docx4j.convert.out.fo.FOPAreaTreeHelper For @bpda, 
<block bap="0 0 0 0" bpd="0" ipd="511755" ipda="511755" visibility="visible"/>

ERROR org.docx4j.convert.out.fo.FOPAreaTreeHelper For input string: ""
java.lang.NumberFormatException: For input string: ""
    at java.base/java.lang.NumberFormatException.forInputString(NumberFormatException.java:67)
    at java.base/java.lang.Integer.parseInt(Integer.java:672)
    at java.base/java.lang.Integer.parseInt(Integer.java:778)
    at org.docx4j.convert.out.fo.FOPAreaTreeHelper.calculateHFExtents(FOPAreaTreeHelper.java:368)
    at org.docx4j.convert.out.fo.LayoutMasterSetBuilder.fixExtents(LayoutMasterSetBuilder.java:146)
    at org.docx4j.convert.out.fo.LayoutMasterSetBuilder.getLayoutMasterSetFragment(LayoutMasterSetBuilder.java:97)
    at org.docx4j.convert.out.fo.XsltFOFunctions.getLayoutMasterSetFragment(XsltFOFunctions.java:85)
    at java.base/jdk.internal.reflect.DirectMethodHandleAccessor.invoke(DirectMethodHandleAccessor.java:103)
    at java.base/java.lang.reflect.Method.invoke(Method.java:580)
    at org.docx4j.org.apache.xalan.extensions.ExtensionHandlerJavaPackage.callFunction(ExtensionHandlerJavaPackage.java:343)
    at org.docx4j.org.apache.xalan.extensions.ExtensionHandlerJavaPackage.callFunction(ExtensionHandlerJavaPackage.java:440)
    at org.docx4j.org.apache.xalan.extensions.ExtensionsTable.extFunction(ExtensionsTable.java:226)
    at org.docx4j.org.apache.xalan.transformer.TransformerImpl.extFunction(TransformerImpl.java:491)
    at org.docx4j.org.apache.xpath.functions.FuncExtFunction.execute(FuncExtFunction.java:208)
    at org.docx4j.org.apache.xpath.XPath.execute(XPath.java:342)
    at org.docx4j.org.apache.xalan.templates.ElemCopyOf.execute(ElemCopyOf.java:134)
    at org.docx4j.org.apache.xalan.transformer.TransformerImpl.executeChildTemplates(TransformerImpl.java:2418)
    at org.docx4j.org.apache.xalan.templates.ElemLiteralResult.execute(ElemLiteralResult.java:1376)
    at org.docx4j.org.apache.xalan.templates.ElemApplyTemplates.transformSelectedNodes(ElemApplyTemplates.java:395)
    at org.docx4j.org.apache.xalan.templates.ElemApplyTemplates.execute(ElemApplyTemplates.java:178)
    at org.docx4j.org.apache.xalan.transformer.TransformerImpl.executeChildTemplates(TransformerImpl.java:2418)
    at org.docx4j.org.apache.xalan.transformer.TransformerImpl.applyTemplateToNode(TransformerImpl.java:2288)
    at org.docx4j.org.apache.xalan.transformer.TransformerImpl.transformNode(TransformerImpl.java:1374)
    at org.docx4j.org.apache.xalan.transformer.TransformerImpl.transform(TransformerImpl.java:727)
    at org.docx4j.org.apache.xalan.transformer.TransformerImpl.transform(TransformerImpl.java:1291)
    at org.docx4j.org.apache.xalan.transformer.TransformerImpl.transform(TransformerImpl.java:1269)
    at org.docx4j.XmlUtils.transform(XmlUtils.java:1518)
    at org.docx4j.XmlUtils.transform(XmlUtils.java:1337)
    at org.docx4j.convert.out.common.AbstractXsltExporterDelegate.process(AbstractXsltExporterDelegate.java:66)
    at org.docx4j.convert.out.common.AbstractWmlExporter.process(AbstractWmlExporter.java:82)
    at org.docx4j.convert.out.common.AbstractWmlExporter.process(AbstractWmlExporter.java:32)
    at org.docx4j.convert.out.common.AbstractExporter.export(AbstractExporter.java:80)
    at org.docx4j.Docx4J.toFO(Docx4J.java:711)
    at org.docx4j.toc.TocGenerator.getPageNumbersMapViaFOP(TocGenerator.java:767)
    at org.docx4j.toc.TocGenerator.getPageNumbersMap(TocGenerator.java:652)
    at org.docx4j.toc.TocGenerator.populateToc(TocGenerator.java:399)
    at org.docx4j.toc.TocGenerator.generateToc(TocGenerator.java:263)
    at org.docx4j.toc.TocGenerator.generateToc(TocGenerator.java:231)
    at org.docx4j.toc.TocGenerator.generateToc(TocGenerator.java:191)
    at com.anan.test.poi.tl.WordWithTOCDocx4j4.main(WordWithTOCDocx4j4.java:22)

WARN日志如下：

WARN  org.docx4j.fonts.GlyphCheck Couldn't get font 宋体
WARN  org.docx4j.fonts.RunFontSelector TODO: how to handle char '“' in range c>='\u2000' && c<='\u2EFF'?
WARN  org.docx4j.fonts.IdentityPlusMapper - - No physical font for: 黑体
WARN  org.docx4j.fonts.fop.util.FopConfigUtil Document font 黑体 is not mapped to a physical font!
WARN  org.docx4j.fonts.PhysicalFonts No entry in MicrosoftFontsRegistry for: Calibri Light
WARN  org.docx4j.model.styles.StyleUtil TODO: implementation is incomplete
WARN  org.docx4j.model.properties.paragraph.Indent Only left/first-line indentation is handled at present
WARN  org.docx4j.convert.out.common.AbstractConversionContext NOT IMPLEMENTED: support for w:tblPrEx; 
WARN  org.apache.fop.apps.FOUserAgent Font "Symbol,normal,700" not found. Substituting with "Symbol,normal,400".
WARN  org.apache.fop.apps.FOUserAgent Font "ZapfDingbats,normal,700" not found. Substituting with "ZapfDingbats,normal,400".
WARN  org.apache.fop.apps.FOUserAgent Font "Times New Roman,normal,400" not found. Substituting with "any,normal,400".
WARN  org.apache.fop.apps.FOUserAgent Font "Calibri Light,normal,700" not found. Substituting with "any,normal,700".
WARN  org.apache.fop.apps.FOUserAgent Font "SimSun,normal,700" not found. Substituting with "any,normal,700".
WARN  org.apache.fop.apps.FOUserAgent Font "SimSun,normal,400" not found. Substituting with "any,normal,400".
WARN  org.apache.fop.apps.FOUserAgent Glyph "第" (0x7b2c) not available in font "Times-Roman".
WARN  org.apache.fop.apps.FOUserAgent Glyph "哈" (0x54c8) not available in font "Times-Bold".

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

36条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2024-12-25 10:58
关注
获得0.15元问题酬金
阿里嘎多学长整理AIGC生成，因移动端显示问题导致当前答案未能完全显示，请使用PC端查看更加详细的解答过程

问题解答

你使用docx4j库根据已有word文件生成目录和页码，但是遇到了性能问题，耗时太长，且有很多ERROR和WARN日志。为了优化性能和缩短时间消耗，可以尝试以下几点：

使用缓存：可以使用缓存机制来存储已经处理过的部分，避免重复处理相同的内容。
使用多线程：可以使用多线程技术来并发处理不同的部分，提高处理速度。
优化代码：可以对代码进行优化，例如使用更高效的算法、减少不必要的计算等。
使用其他库：可以尝试使用其他库，例如Apache POI，来生成目录和页码，可能会有更好的性能。

以下是一个使用多线程技术来优化代码的示例：

import java.util.concurrent.ExecutorService; import java.util.concurrent.Executors; // ... ExecutorService executor = Executors.newFixedThreadPool(4); // 创建4个线程池 // ... executor.submit(() -> { // 处理目录 // ... }); executor.submit(() -> { // 处理页码 // ... }); // ... executor.shutdown(); // 关闭线程池

需要注意的是，这只是一个简单的示例，实际情况中可能需要根据具体情况进行调整和优化。

代码核心部分

ExecutorService executor = Executors.newFixedThreadPool(4); // ... executor.submit(() -> { // 处理目录 // ... }); executor.submit(() -> { // 处理页码 // ... }); executor.shutdown();

问题解决方案

使用缓存
使用多线程
优化代码
使用其他库
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

使用 Java 自动生成 Word 文档目录
2025-09-29 16:52

缺点内向的博客在Java开发中，借助Spire.Doc for Java库，我们可以通过编程方式自动为Word文档生成精准的目录结构。该功能能够智能识别文档中的标题样式，动态创建包含层级关系和页码的目录，极大提升了长文档处理的自动化程度和...
Java Word控件-Free Spire.Doc for Java_2.0.0
2020-01-15 23:07

1. **创建和编辑文档**：从头创建新的Word文档，或者打开已有的文档进行编辑。可以添加文本、段落、表格、图片、形状等多种元素，同时支持自定义样式和格式。 2. **读取和解析文档**：能有效地读取文档内容，包括...
福利！使用Aspose.Words在Java中以编程方式将Word格式转换为PDF完整指南
2020-02-24 15:50

Lee-Shyllen的博客但是，随着新兴的MS Word自动化和报告生成解决方案，Word到PDF的自动转换已成为系统的重要组成部分。同时，需要自动完成DOC / DOCX到PDF的批量转换，以减少时间和精力。在这种情况下，本文将展示如何使用Aspose....
Spring Boot项目中Word文件导出示例
2025-08-24 07:46

爽新全效瓷兔膏的博客此外，POI不仅仅可以读取文件，还可以创建和修改这些文件，为开发者提供了一个灵活的方式来处理文档内容。Apache POI的主要优势在于它是一个完全用Java编写的开源项目，这意味着它可以无缝集成到Java应用程序中，...
word源码java-imitate:此项目主要是用来熟悉框架
2021-06-05 23:38

"word源码java-imitate"项目旨在帮助开发者通过模仿已有的框架实现，深入理解其内部工作原理，从而更好地运用到实际工作中。这个项目的核心是提供一个学习和实践的平台，让开发者能够对Java编程和Word处理有更深入的...
Java中关于创建文件，Java实现 PDF、Word、Excel、Html、XML互转及与图片互相转化、图片像素调节，待更新整理中
2022-03-28 00:09

问题一箩筐的博客 java实现PDF转图片、Word转图片、Excel转图片、Html转图片、PDF与Html互转、Word与PDF互转、Word与Html互转等。
办公自动化：使用 Python 生成 Word 文件：自动生成数据库文档 Word 文件
2025-03-16 20:07

简简单单OnlineZuozuo的博客在当今数字化时代，办公自动化已成为提高工作效率的关键手段之一。...幸运的是，借助 Python 这门强大的编程语言，我们可以通过自动化的方式高效地生成数据库文档 Word 文件，从而解放双手，提升工作质量。
Markdown vs Word：2025 技术文档工具终极对决
2025-08-24 16:36

JAVA编程爱好者520的博客在 2025 年，随着技术的不断发展和用户需求的日益多样化，对这两款工具进行深入对比分析，有助于我们更好地选择适合自身需求的文档解决方案。在实际应用中，用户应根据具体的文档类型、团队协作需求以及个人使用习惯...
JAVA的多线程及并发
2024-03-11 15:57

ysdysyn的博客线程安全就是说多线程访问同一代码，不会产生不确定的结果。在多线程环境中，当各线程不共享数据的时候，即都是私有（private）...如果你的代码所在的进程中有多个线程在同时运行，而这些线程可能会同时运行这段代码。
Java并发编程题库
2020-07-03 00:23

慢就是【快】的博客文章目录并发编程三要素?实现可见性的方法有哪些?创建线程的有哪些方式?创建线程的三种方式的对比？Runnable 和 Callable 的区别Java线程具有五中基本状态什么是线程池？有哪几种创建方式？线程池的优点？常用的并发...
如何使用 Java 实现自动删除 Word 文档中的空白页或指定页
2026-03-13 17:06

SunnyDays1011的博客因此，在对 Word 文档进行页面级操作时，更适合使用带有独立排版引擎的文档处理组件，例如 Spire.Doc for Java...本文将将分享如何使用 Java 删除 Word 文档中的空白页面和指定页面，并提供可直接在项目中使用的示例。
开源PDF文件处理工具箱
2022-03-09 14:06

程序猿DD_的博客想必不少小伙伴平时都要用PDF文件进行各种处理，TJ君印象中，使用PDF文档，最大的麻烦就是对其中的内容进行编辑，往往因为各种原因导致编辑失败、无法编辑。但是今天，TJ君就要和大家分享一个...
Java PDF文件解析实战教程及源代码
2025-05-16 21:58

小虾汉斯的博客 PDF（Portable Document Format）文件由于其跨平台性和文件格式的稳定性，成为广泛使用的电子文档格式之一。在IT行业，尤其在需要保持文件排版和格式不变的应用场景中，PDF文件处理显得尤为重要。本章将对PDF文件...
某Java大佬在地表最强Java企业（阿里）面试总结
2020-08-23 19:48

发呆哥o_o ....的博客面试题真的是博大精深，也通过这个面试题学到了很多东西，很多笔者也不是很懂，如有描述错误的地方还望大佬赐教 HashMap和Hashtable的区别 Hashtable继承自Dictionary类，而HashMap继承自AbstractMap类。但二者都...
8万字Java后端面试题大全（附答案）——持续更新
2024-10-15 22:39

这河里吗l的博客 Java面试题大全，搞定java面试有这一篇就够了，包含java基础，集合，并发，JVM，Spring，Spring Boot，Spring Cloud，MySQL优化，MyBatis，ES，MongoDB，MQ等，场景题持续更新中。
Java基于Apache POI动态生成Word文档实战
2025-10-19 06:32

薄辉的博客尤其是在报表生成、合同定制、数据导出等业务场景下，Java作为主流后端语言，具备强大的生态支持来实现Word文档的动态生成。本章将系统性地介绍Java动态生成Word的核心价值与技术背景，阐述其相较于传统手动编写文档...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月25日

请问java中如何根据已有word文件快速生成目录和页码

36条回答 默认 最新

问题解答

代码核心部分

问题解决方案

问题事件

36条回答默认最新