Java 读取 pdf文档的字体、字号、文字颜色、文字背景、文字是否加粗或倾斜、文字

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

冯丙见 2022-12-07 14:39

关注

ChatGPT的回答，可以参考下：

可以使用 Apache PDFBox 来读取 PDF 文档的字体、字号、文字颜色、文字背景、文字是否加粗或倾斜、文字下划线等内容，代码如下所示：

public static void main(String[] args) {
    PDDocument document = null;
    try {
        // 加载PDF文档
        document = PDDocument.load(new File("test.pdf"));
        // 创建PDF文本读取器
        PDFTextStripper stripper = new PDFTextStripper();
        // 读取每一页的内容
        for (int i = 0; i < document.getNumberOfPages(); i++) {
            // 设置读取的页码
            stripper.setStartPage(i);
            stripper.setEndPage(i);
            // 读取指定页码的内容
            String pageText = stripper.getText(document);
            // 读取指定页码的字体信息
            PDFTextStripperByArea stripperByArea = new PDFTextStripperByArea();
            // 创建一个新的页面
            PDPage page = document.getPage(i);
            // 获取页面的内容
            PDResources resources = page.getResources();
            // 获取字体
            Map<String, PDFont> fonts = resources.getFonts();
            // 获取文字的格式
            PDPageContentStream contentStream = new PDPageContentStream(document, page);             // 获取文字的颜色、字号、背景、是否加粗或倾斜、下划线等信息             
             // 等等。。。                 
             // 关闭流             
             contentStream.close();         }     } catch (IOException e) {         e.printStackTrace();     } finally {         if (document != null) {             try {                 document.close();             } catch (IOException e) {                 e.printStackTrace();             }         }     } }

报告相同问题？

关注问题

【Java基础知识 52】Java使用itext读取pdf、生成pdf
2022-04-19 20:49

哪吒的博客 Java基础教程系列，打造精品专栏。
Java操作pdf的工具类itext
2022-04-18 10:14

哪吒的博客在企业的信息系统中，报表处理一直占比较重要的作用，iText是一种生成PDF报表的Java组件。通过在服务器端使用Jsp或JavaBean生成PDF报表，客户端采用超链接显示或下载得到生成的报表，这样就很好的解决了B/S系统的...
Java操作pdf的工具类itextpdf
2022-11-08 18:58

老谭TYH的博客在企业的信息系统中，报表处理一直占比较重要的作用，iText是一种生成PDF报表的Java组件。通过在服务器端使用Jsp或JavaBean生成PDF报表，客户端采用超链接显示或下载得到生成的报表，这样就很好的解决了B/S系统的...
Java实现PDF与PPT解析及高质量文档转换实战
2025-09-21 19:00

李开机呢的博客 PDF文件由对象、交叉引用表、字典和流构成其物理结构，逻辑上则通过页面树组织内容，依赖资源字典管理字体、图像等元素。每个对象以唯一ID标识，并通过xref表定位，支持随机访问与增量更新。字体嵌入机制保障跨平台...
Java实现Docx转PDF文档转换实战项目
2025-10-26 12:49

菁子姐姐的博客在Java开发中，文件操作是实现数据持久化和文档处理的核心技能。本章系统介绍java.io与java.nio两大IO体系，深入解析ReaderWriter等核心抽象类的使用场景与设计原理。通过对比传统IO的阻塞式模型与NIO的缓冲区、通道...
湖南省中职学业水平考试复习试题(计算机三)
2022-03-11 16:50

SickeyLee的博客 A、左手和右手的食指，因食指最灵活 B、左手或右手的拇指 C、左手或右手的中指 D、左手或右手的无名指 2、显示器的清晰度是由（）决定的。 A、显示器的尺寸 B、显示器的类型 C、显示器的分辨率 D、计算机主机...
android安卓源码海量项目合集打包-1
2019-06-11 16:16

小黄人软件的博客 │ │ Android iText生成和读取PDF文件.rar │ │ Android pdf插件，有测试程序，和导入包，还有控件源码.rar │ │ android 读取展示office2007.rar │ │ AndroidPdfView一行代码快速显示pdf，支持线上下载与...
Java实现Word文档导出及图表插入完整解决方案
2025-09-21 08:13

阿晴招生笔记的博客在现代企业级应用开发中，文档自动化处理已成为不可或缺的一环。特别是在报表生成、合同导出、数据归档等业务场景中，将结构化数据以规范的Word文档格式输出，是提升办公效率与用户体验的重要手段。Java作为企业后端...
大学计算机基础笔记
2021-04-01 18:30

逻辑棱镜的博客 ⑶ 使用第三代编程语言，即：高级语言进行编程: ①常用的高级编程语言有BASIC、C（结构性或算法语言）,C++、JAVA（面向对象编程语言）, Python（脚本语言）等。 ②特别的，利用BASIC语言编写的源程序，必须经解释...
HTML基础笔记
2025-04-25 17:13

明飞1987的博客 HTML 超文本标记语言——HyperText Markup Language。超越普通文本,具有链接功能 - 通过链接可以把多个网页链接到一起。标签成对出现，开始标签和结束标签之间包裹内容。标记也叫标签，带尖括号的文本。里面放英文...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月7日

Java 读取 pdf文档的字体、字号、文字颜色、文字背景、文字是否加粗或倾斜、文字

1条回答 默认 最新

问题事件

1条回答默认最新