各位好:
我需要实现的功能如下:
获取pdf文件中的图片,然后根据这个图片,获取图片上下两行的文本数据。
目前可以提取,每一页的图片,和他的文本信息。但是无法定位到 上下两行。
有没有大虾做过的,或者给他建议。
我找api 找了很久, 但是由于英文很烂,pdfbox的对象模型太多了。也没找到一个从上到下遍历一个页面 的方法。
各位好:
我需要实现的功能如下:
获取pdf文件中的图片,然后根据这个图片,获取图片上下两行的文本数据。
目前可以提取,每一页的图片,和他的文本信息。但是无法定位到 上下两行。
有没有大虾做过的,或者给他建议。
我找api 找了很久, 但是由于英文很烂,pdfbox的对象模型太多了。也没找到一个从上到下遍历一个页面 的方法。
pdfbox没有获取行号的api,所以你所说的功能无法实现,但是有个替代的方法,你翻下[url]http://wenku.baidu.com/view/6e39e18783d049649b66582f.html[/url],第17页,org.apache.pdfbox.examples.util.PrintImageLocations这个类会告诉你如何获取一个图片的位置,org.apache.pdfbox.examples.util.ExtractTextByArea告诉你如何获取一个区域的文字,你先获取图片位置,根据字体大小估算上两行的text位置,然后计算出上两行text所在的区域,获取该区域的text,同理,可以获取图片下两行text的位置。