pdfbox

各位好：
我需要实现的功能如下：
获取pdf文件中的图片，然后根据这个图片，获取图片上下两行的文本数据。

目前可以提取，每一页的图片，和他的文本信息。但是无法定位到上下两行。

有没有大虾做过的，或者给他建议。

我找api 找了很久，但是由于英文很烂，pdfbox的对象模型太多了。也没找到一个从上到下遍历一个页面的方法。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
zyn010101 2013-07-24 17:33
关注
pdfbox没有获取行号的api，所以你所说的功能无法实现，但是有个替代的方法，你翻下[url]http://wenku.baidu.com/view/6e39e18783d049649b66582f.html[/url],第17页，org.apache.pdfbox.examples.util.PrintImageLocations这个类会告诉你如何获取一个图片的位置，org.apache.pdfbox.examples.util.ExtractTextByArea告诉你如何获取一个区域的文字，你先获取图片位置，根据字体大小估算上两行的text位置，然后计算出上两行text所在的区域，获取该区域的text，同理，可以获取图片下两行text的位置。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

pdfbox-1.8.2.jar
2020-11-23 11:47

PDFBox是Apache软件基金会开发的一个开源Java库，用于处理PDF（Portable Document Format）文档。`pdfbox-1.8.2.jar`是该库的一个版本，主要用于在Java应用程序中进行PDF文档的创建、读取、修改和转换。下面将详细...
pdfbox-app-2.0.31.jar
2024-04-10 19:59

从 https://pdfbox.apache.org/ 下载，太费时了。为了节约你的时间，我上传了这个 pdfbox-app-2.0.31.jar
pdfbox图片转换字体
2026-04-27 05:26

PDFBox是由Apache软件基金会创建的一个Java工具包，其主要用于对PDF文件进行操作。在运用PDFBox将PDF文档转变为图像格式时，可能会出现一个现象，即转换后的图像中文字部分存在不完整或者完全缺失的情况。这种情况的...
PDFBox jar包-Java工具类资源
2021-04-19 16:00

PDFBox是Apache软件基金会的一个开源项目，专门用于处理PDF（Portable Document Format）文档的Java库。这个库提供了丰富的API，让开发者能够轻松地在Java应用中进行PDF文档的读取、写入、编辑以及签名等一系列操作...
pdfbox-2.0.22.jar
2021-07-13 17:39

Apache PDFBox是一个开源Java库，支持PDF文档的开发和转换。使用此库，您可以开发用于创建，转换和操作PDF文档的Java程序。
pdfbox：Apache PDFBox的镜像
2021-02-03 20:12

Apache PDFBox Apache PDFBox库是用于处理PDF文档的开源Java工具。该项目允许创建新的PDF文档，操作现有文档以及从文档中提取内容的功能。 PDFBox还包括几个命令行实用程序。 PDFBox是根据Apache许可版本2.0发布的...
pdfbox使用jar包
2018-09-28 09:41

PDFBox是Apache软件基金会的一个开源项目，主要用于处理PDF（Portable Document Format）文档。这个库提供了丰富的API，使得开发者能够创建、编辑、阅读和打印PDF文件。在这个场景中，提到的"pdfbox使用jar包"指的是...
PDFBox PDF处理类库 v2.0.25.zip
2024-04-05 20:41

PDFBox是Apache软件基金会开发的一个开源Java库，用于处理PDF（Portable Document Format）文档。这个类库提供了丰富的功能，使得开发者能够创建、编辑、读取和处理PDF文档。PDFBox v2.0.25是该库的一个稳定版本，...
PDFBox PDF处理类库 v1.8.16.zip
2024-04-05 20:38

PDFBox是Apache软件基金会开发的一个开源Java库，用于处理PDF（Portable Document Format）文档。它提供了丰富的API，使得开发者能够创建、编辑、读取、签署以及处理PDF文档。在这个"PDFBox PDF处理类库 v1.8.16.zip...
pdfbox源代码
2018-01-15 11:43

PDFBox是Apache软件基金会开发的一个开源Java库，用于处理PDF（Portable Document Format）文档。它提供了丰富的API，允许开发者创建、编辑、读取和转换PDF文档。在这个名为"pdfbox源代码"的压缩包中，包含的是...
python-pdfbox:Apache PDFBox命令行工具的Python接口
2021-05-16 01:40

python-pdfbox包装说明为命令行工具提供简单的Python 3界面。要求除了Python 3和指定的那些软件包外，python-pdfbox要求java出现在系统路径中。一些用户报告了某些版本的Java上的。如果遇到此类问题，请尝试使用...
pdfbox最新版
2017-03-09 13:37

PDFBox是Apache软件基金会的一个开源项目，专门用于处理PDF（Portable Document Format）文档的Java库。这个最新的版本“pdfbox2.0.4”提供了全面的功能，帮助开发者在Java环境中创建、编辑、读取和操作PDF文件。在...
PDFBox PDF处理类库 v3.0.0 alpha2.zip
2024-04-05 20:42

PDFBox是Apache软件基金会的一个开源项目，专门用于处理PDF（Portable Document Format）文档的Java类库。这个压缩包“PDFBox PDF处理类库 v3.0.0 alpha2.zip”包含的是PDFBox的最新预发布版本，即v3.0.0的alpha2...
java使用pdfbox操作pdf文件示例
2020-09-04 13:38

Java 使用PDFBox操作PDF文件是常见的任务，尤其是在处理PDF文档中的文本内容时。PDFBox是一个由Apache软件基金会提供的开源Java库，它允许开发者对PDF文件进行读取、写入和修改等操作。以下是对PDFBox及其相关功能的...
pdfbox jar包
2017-12-04 17:45

PDFBox是Apache软件基金会的一个开源Java库，用于处理PDF（Portable Document Format）文档。这个库提供了许多功能，包括创建、编辑、阅读、提取文本和图像，以及签署PDF文档。在这个场景中，我们讨论的是PDFBox的...
PDFBox-0.7.3.rar
2021-12-04 10:49

PDFBox是Apache软件基金会的一个开源项目，主要用于处理PDF（Portable Document Format）文档。这个压缩包“PDFBox-0.7.3.rar”包含了版本0.7.3的PDFBox库，该版本可能发布于若干年前，因为当前的PDFBox版本已经更新...
pdfbox-1.8.9
2019-03-21 10:08

PDFBox.NET-1.8.9-Full是一个针对.NET平台的开源库，它实现了Apache PDFBox的功能，专门用于处理PDF（Portable Document Format）文件。这个压缩包提供了版本为1.8.9的PDFBox.NET完整版，包含了所有必要的组件和资源...
pdfbox-simple:简单的PDFBox包装器
2021-05-04 19:56

安装$ npm install pdfbox-simple用法( async ( ) => { const PDFBox = require ( "pdfbox" ) const pdfbox = new PDFBox ( ) await pdfbox . exec ( "PDFMerger" , "foo.pdf" , "bar.pdf" , "quux.pdf" )} ...
PdfBox使用指南[代码]
2025-11-16 07:20

PdfBox是Apache基金会下的一个开源项目，使用Java语言编写，主要用于创建和操作PDF文档。作为一个功能强大的PDF处理库，它为开发者提供了丰富的API接口，用以完成从基础的PDF文件读写到复杂的文档处理的各项任务。 ...
pdfbox-2.0.19.jar
2020-02-29 19:10

pdfbox-2.0.19 PDFBox是一个为开发人员读取和创建PDF文档而准备的纯Java类库。
没有解决我的问题, 去提问

pdfbox

1条回答 默认 最新

1条回答默认最新