暴猿 2022-07-30 15:47 采纳率: 0%
浏览 547
已结题

Java使用PDFbox读取PDF文件时表格内容出现换行获取的数据出错

Java使用PDFbox读取PDF文件时表格内容出现换行获取的数据出错

PDDocument document = new PDDocument();
// 如果作为URL装载得到异常则从文件系统装载
document = PDDocument.load(is);
// PDFTextStripper来提取文本
PDFTextStripper stripper = null;
stripper = new PDFTextStripper();
//设置为true 则按照行进行读取
stripper.setSortByPosition(true);
stripper.setStartPage(startPage);
String text = stripper.getText(document);

stripper.getText(document);这个方法返回的字符串text已经是纯文本字符串了,如果已经换行的内容无法通过去\n的方式解决,本来是一行的内容如果出现换行就回变成两行

目前没有任何解决思路,尝试了其他工具有些付费的先转Excel再读取倒是能解决这个问题但是效率太低了,太耗时!

想知道有没有哪位之前用PDFbox解决过这种读取换行内容的问题?

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 8月7日
    • 创建了问题 7月30日

    悬赏问题

    • ¥15 onlyoffice编辑完后立即下载,下载的不是最新编辑的文档
    • ¥15 求caverdock使用教程
    • ¥15 Coze智能助手搭建过程中的问题请教
    • ¥15 12864只亮屏 不显示汉字
    • ¥20 三极管1000倍放大电路
    • ¥15 vscode报错如何解决
    • ¥15 前端vue CryptoJS Aes CBC加密后端java解密
    • ¥15 python随机森林对两个excel表格读取,shap报错
    • ¥15 基于STM32心率血氧监测(OLED显示)相关代码运行成功后烧录成功OLED显示屏不显示的原因是什么
    • ¥100 X轴为分离变量(因子变量),如何控制X轴每个分类变量的长度。