Java使用PDFbox读取PDF文件时表格内容出现换行获取的数据出错
PDDocument document = new PDDocument();
// 如果作为URL装载得到异常则从文件系统装载
document = PDDocument.load(is);
// PDFTextStripper来提取文本
PDFTextStripper stripper = null;
stripper = new PDFTextStripper();
//设置为true 则按照行进行读取
stripper.setSortByPosition(true);
stripper.setStartPage(startPage);
String text = stripper.getText(document);
stripper.getText(document);这个方法返回的字符串text已经是纯文本字符串了,如果已经换行的内容无法通过去\n的方式解决,本来是一行的内容如果出现换行就回变成两行
目前没有任何解决思路,尝试了其他工具有些付费的先转Excel再读取倒是能解决这个问题但是效率太低了,太耗时!
想知道有没有哪位之前用PDFbox解决过这种读取换行内容的问题?