Java使用PDFbox读取PDF文件时表格内容出现换行获取的数据出错

PDDocument document = new PDDocument();
// 如果作为URL装载得到异常则从文件系统装载
document = PDDocument.load(is);
// PDFTextStripper来提取文本
PDFTextStripper stripper = null;
stripper = new PDFTextStripper();
//设置为true 则按照行进行读取
stripper.setSortByPosition(true);
stripper.setStartPage(startPage);
String text = stripper.getText(document);

stripper.getText(document);这个方法返回的字符串text已经是纯文本字符串了，如果已经换行的内容无法通过去\n的方式解决，本来是一行的内容如果出现换行就回变成两行

目前没有任何解决思路，尝试了其他工具有些付费的先转Excel再读取倒是能解决这个问题但是效率太低了，太耗时！

想知道有没有哪位之前用PDFbox解决过这种读取换行内容的问题？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

Java使用PDFbox读取PDF文件时表格内出现换行导致数据混乱 java 有问必答
2021-09-01 15:49

回答 1 已采纳读取的时候去掉换行符。
PDFRender将PDF文件转为图片出现空白页 intellij-idea java maven
2020-07-25 16:27

回答 2 已采纳试一试用Free Spire.PDF for Java来转换PDF到图片呢，[参考文章](https://blog.csdn.net/Eiceblue/article/details/82151396
用pdfbox把pdf转换成图片的时候，会出现invalid characters codes
2017-11-15 03:46

回答 2 已采纳无意间看到的希望对你有帮助 http://www.cnblogs.com/Starshot/p/7481724.html
java使用pdfbox操作pdf文件示例
2020-09-04 13:38

Java 使用PDFBox操作PDF文件是常见的任务，尤其是在处理PDF文档中的文本内容时。PDFBox是一个由Apache软件基金会提供的开源Java库，它允许开发者对PDF文件进行读取、写入和修改等操作。以下是对PDFBox及其相关功能的...
java如何提取pdf文件某一部分的完整图文信息，求大神指点 java
2016-11-18 03:54

回答 1 已采纳 ``` PdfReader reader = new PdfReader("c:/debug/test.pdf"); reader.selectPages("2-5");
文件流确认已经关闭，但是文件还是被程序占用 java 有问必答
2022-04-02 15:48

回答 3 已采纳就代码来说，你在循环中反复new文件流，但只是在finally中释放了最后一个。是否应该在52行就进行文件流的释放呢
可以在html，php和javascript中使用PDFbox吗？ html javascript php
2015-07-07 09:54

回答 1 已采纳 No, unless you use the command line utilities, or develop your own, and then call them from your p
Java 解析 PDF， pdfbox读取PDF内容
2019-03-24 02:59

Java作为一款跨平台的编程语言，提供了多种库来处理PDF文档，其中之一就是PDFBox。本文将深入探讨如何使用PDFBox库在Java中解析PDF并读取其内容。 PDFBox是Apache软件基金会的一个开源项目，它为Java开发者提供了一...
pdfbox
2013-07-23 22:49

回答 1 已采纳 pdfbox没有获取行号的api，所以你所说的功能无法实现，但是有个替代的方法，你翻下[url]http://wenku.baidu.com/view/6e39e18783d049649b66582f
JAVA RandomAccessFile方法的一些问题 java
2017-10-11 13:04

回答 1 已采纳 * String类型的长度是随着内容的变化而变化的，老师可能是使用了固定的内容，所以说是固定的 * 硬盘在格式化的时候会规定内容的最小块，每个文件使用的内容是整数个块，从而加快索引速度，所以如果硬盘
使用php解析pdf php
2011-06-30 13:12

回答 1 已采纳 I think the status is largely the same as it was: there are no PHP native implementations of a PDF
java 读取pdf表格,使用java读取pdf文件中的表格或单元格值？
2021-02-13 00:00

戮萌的博客 I have gone through Java and PDF forums to extract a text value from the table in a pdf file, but could't find any solution except JPedal (It's not opensource and licensed).So, I would like to know an...
怎样将pdf转成jpg呢？
2008-09-26 14:37

回答 3 已采纳 imageMagick 这个很不错，在window和linux都能用效果很好，网上的文章也多我们项目用的就是他
java 解析pdf表格_java – 使用PDFBox解析PDF文件(特别是使用表格)
2021-03-09 20:30

Eleny君君的博客我需要解析一个包含表格数据的PDF文件。我使用PDFBox提取文件文本来解析结果(字符串)稍后。问题是文本提取不能像我预期的表格数据那样工作。例如，我有一个文件，其中包含这样的表(7列：前两个总是有数据，只有一个...
traprange:（Java）从PDF文件提取表格内容的方法
2021-05-05 06:24

有几种数据文件格式，通常用于存储表格内容，例如CSV，文本和pdf。对于前两种格式，只需打开文件，循环浏览并使用适当的分隔符拆分单元格，就可以非常简单地进行操作。执行此操作的库很多。对于PDF文件，故事...
java pdfbox 读取pdf文件_Java 使用PDFBox提取PDF文件中的图片
2021-03-22 12:18

1391377967的博客今天做PDF文件解析，遇到一个需求：提取文件中的图片并保存。使用的是流行的apache开源jar包pdfbox, 但还是遇到坑了，比如pdfbox版本太高或太低都不能用！！这个包竟然没有很好地做好兼容问题，有些方法在高版本说...
java pdfbox 读取pdf文件_用pdfbox 读取pdf文档
2021-03-08 20:28

为禽兽而匿的博客 pdfbox 是apache下一个开源的小项目，用来做与PDF相关的操作, 测试了一下简单的读取PDF文档，也有点意思，但对于生成PDF来说，没有itext强大。maven的依赖org.apache.pdfboxpdfbox2.0.6简单读取未加密的PDF文档代码...
Java 使用 pdfbox 读取 PDF文件中的文本
2016-06-21 16:11

「已注销」的博客下面我们直接使用pdf取得PDF文件中的文本，代码如下 import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStream; import org.apache....
java pdfbox读取pdf中的表格
2019-05-07 09:59

weixin_44803933的博客 java pdfbox读取pdf中的表格目前遇到了需要解析pdf中表格的需求，遇到无法解析表格中的空格，求助大神帮助！！！ <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>...
java pdfbox 读取pdf文件_使用pdfbox从PDF文件中提取文本
2021-03-08 20:28

庄明仁的博客我试图使用pdfbox从PDF文件中提取文本，但不是作为命令行工具，而是在我的Java应用程序中 . 我正在使用jsoup下载pdf .res = Jsoup.connect(host+action).ignoreContentType(true).data(data).cookies(cookies)....
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月30日

悬赏问题

¥15 onlyoffice编辑完后立即下载，下载的不是最新编辑的文档
¥15 求caverdock使用教程
¥15 Coze智能助手搭建过程中的问题请教
¥15 12864只亮屏不显示汉字
¥20 三极管1000倍放大电路
¥15 vscode报错如何解决
¥15 前端vue CryptoJS Aes CBC加密后端java解密
¥15 python随机森林对两个excel表格读取，shap报错
¥15 基于STM32心率血氧监测（OLED显示）相关代码运行成功后烧录成功OLED显示屏不显示的原因是什么
¥100 X轴为分离变量（因子变量），如何控制X轴每个分类变量的长度。

Java使用PDFbox读取PDF文件时表格内容出现换行获取的数据出错

0条回答 默认 最新

问题事件

悬赏问题

0条回答默认最新