java如何提取出pdf里的文字？

我现在想使用java来实现提取PDF内的文字，
目前使用了apache的pdfbox，但是很多文件都识别不出来，比如一些拍照后的扫描件，
然后还试过将pdf每一页转换成图片，然后使用tess4j的Tesseract来识别图片，这个又太慢，太占资源了，
现在有没有比较好的方案？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

20条回答默认最新

专家-赤兔[在线] 全栈领域优质创作者 2024-04-25 10:20

关注

引自免费微信小程序：皆我百晓生

在Java中提取PDF中的文字，您可以尝试以下几种方法来优化现有方案或采用新的技术路径。为确保高效、准确地处理各类PDF文档（包括扫描件），我会为您提供详尽的步骤、代码示例以及可能遇到的问题及解决策略。

优化Apache PDFBox使用：
- 更新版本：确保您使用的是最新版的Apache PDFBox库（当前最新版本为2.0.27），因为新版本通常包含对复杂PDF解析和图像识别的改进。
- 配置参数：针对扫描件，调整PDFTextStripper的参数设置，例如启用分栏检测（setShouldSeparateByBeads(true)）和字间距检测（setAverageCharTolerance(1.0f)），以适应不规则布局和低质量文本。
- 处理图像内容：对于含有图像文字的PDF，PDFBox本身并不直接支持OCR。您可以结合第三方OCR服务或库（如Google Cloud Vision API、Tesseract等）对PDF中的图像进行单独识别。以下是一个简单的示例：
```
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

public class PdfTextExtractor {
    public static void main(String[] args) throws Exception {
        PDDocument document = PDDocument.load(new File("path_to_your_pdf"));
        PDFTextStripper pdfStripper = new PDFTextStripper();
        pdfStripper.setShouldSeparateByBeads(true);
        pdfStripper.setAverageCharTolerance(1.0f);

        String text = pdfStripper.getText(document);
        System.out.println(text);

        document.close();
    }
}
```

使用OCR4J替代Tesseract：

OCR4J是一个基于Java的OCR框架，集成了多种OCR引擎（包括Tesseract），并提供了更高级的图像预处理和后处理功能。相较于直接使用Tesseract，OCR4J可以更高效地处理PDF中的图像，并减少资源消耗。

安装与依赖：

<dependencies>
    <dependency>
        <groupId>com.github.jai-imageio</groupId>
        <artifactId>jai-imageio-core</artifactId>
        <version>1.4.0</version>
    </dependency>
    <dependency>
        <groupId>org.ocr4j</groupId>
        <artifactId>ocr4j</artifactId>
        <version>1.5.6</version>
    </dependency>
    <dependency>
        <groupId>net.sourceforge.tess4j</groupId>
        <artifactId>tess4j</artifactId>
        <version>5.3.2</version>
    </dependency>
</dependencies>

使用OCR4J提取PDF文字：

import com.github.ocr4j.Ocr4jRunner;
import com.github.ocr4j.config.ConfigurableOcrEngine;
import com.github.ocr4j.config.OCRConfiguration;
import com.github.ocr4j.config.provider.properties.PropertiesOCRConfigurationProvider;
import com.github.ocr4j.model.TextBlock;
import com.github.ocr4j.model.TextLine;
import com.github.ocr4j.model.Word;
import com.github.ocr4j.output.JSONOutputConverter;
import com.github.ocr4j.preprocess.ResizePreprocessor;
import net.sourceforge.tess4j.util.ImageIOHelper;

public class Ocr4jPdfExtractor {
    public static void main(String[] args) throws Exception {
        // Load OCR configuration from properties file (e.g., tessdata/configs/tesseract-ocr4j.properties)
        PropertiesOCRConfigurationProvider provider = new PropertiesOCRConfigurationProvider("path/to/ocr-config.properties");
        OCRConfiguration ocrConfig = provider.getOCRConfiguration();

        // Configure OCR engine with Tesseract and enable image resizing for better performance
        ConfigurableOcrEngine ocrEngine = new ConfigurableOcrEngine(ocrConfig);
        ocrEngine.addPreprocessor(new ResizePreprocessor(1024, 800));

        // Extract text from PDF
        Ocr4jRunner runner = new Ocr4jRunner(ocrEngine);
        String jsonOutput = runner.run("path_to_your_pdf", JSONOutputConverter.class);

        // Parse JSON output and retrieve recognized text
        JSONObject jsonObject = new JSONObject(jsonOutput);
        JSONArray pages = jsonObject.getJSONArray("pages");
        for (int i = 0; i < pages.length(); i++) {
            JSONArray blocks = pages.getJSONObject(i).getJSONArray("blocks");
            for (int j = 0; j < blocks.length(); j++) {
                TextBlock block = new TextBlock(blocks.getJSONObject(j));
                for (TextLine line : block.getTextLines()) {
                    for (Word word : line.getWords()) {
                        System.out.print(word.getText());
                    }
                    System.out.println();
                }
            }
        }
    }
}

利用云服务进行OCR：

如果本地处理性能不足或希望减轻服务器负担，可以考虑使用云服务进行OCR，如Google Cloud Vision API、Amazon Textract、Microsoft Azure Computer Vision等。这些服务提供REST API接口，您可以轻松集成到Java应用程序中。以下是使用Google Cloud Vision API的一个简单示例：

添加依赖：

<dependencies>
    <dependency>
        <groupId>com.google.cloud</groupId>
        <artifactId>google-cloud-vision</artifactId>
        <version>2.9.½</version>
    </dependency>
</dependencies>

使用Google Cloud Vision API：

import com.google.auth.oauth2.GoogleCredentials;
import com.google.cloud.vision.v1.AnnotateFileRequest;
import com.google.cloud.vision.v1.AnnotateFileResponse;
import com.google.cloud.vision.v1.Document;
import com.google.cloud.vision.v1.Feature;
import com.google.cloud.vision.v1.Feature.Type;
import com.google.cloud.vision.v1.ImageAnnotatorClient;
import com.google.cloud.vision.v1.Page;
import com.google.cloud.vision.v1.TextAnnotation;
import com.google.common.collect.Lists;

public class GoogleCloudVisionPdfExtractor {
    public static void main(String[] args) throws Exception {
        // Load Google Cloud credentials from JSON file
        GoogleCredentials credentials = GoogleCredentials.fromStream(new FileInputStream("path/to/credentials.json"))
                .createScoped(Lists.newArrayList("https://www.googleapis.com/auth/cloud-platform"));

        try (ImageAnnotatorClient client = ImageAnnotatorClient.create(credentials)) {
            // Prepare request to extract text from PDF
            Document document = Document.newBuilder().setContent(ByteString.readFrom(new FileInputStream("path_to_your_pdf"))).setType(Document.Type.PDF).build();
            Feature feature = Feature.newBuilder().setType(Type.DOCUMENT_TEXT_DETECTION).build();
            AnnotateFileRequest request = AnnotateFileRequest.newBuilder().addFeatures(feature).setInputDocument(document).build();

            // Send request and receive response
            AnnotateFileResponse response = client.annotateFile(request);

            // Extract recognized text from response
            List<TextAnnotation> annotations = response.getResponsesList().stream()
                    .map(AnnotateImageResponse::getTextAnnotations)
                    .flatMap(Collection::stream)
                    .collect(Collectors.toList());

            for (TextAnnotation annotation : annotations) {
                for (Page page : annotation.getPagesList()) {
                    System.out.println(page.getBlocksList().stream()
                            .flatMap(block -> block.getParagraphsList().stream())
                            .flatMap(paragraph -> paragraph.getWordsList().stream())
                            .flatMap(word -> word.getSymbolsList().stream())
                            .map(symbol -> symbol.getText())
                            .collect(Collectors.joining()));
                }
            }
        }
    }
}

总结起来，优化Apache PDFBox配置、使用OCR4J替代Tesseract、或利用云服务（如Google Cloud Vision API）进行OCR，都是提高Java环境下PDF文字提取效果和效率的有效途径。根据您的项目需求、资源条件和对准确度、速度的权衡，选择最适合您的方案。提供的代码示例仅供参考，实际使用时请根据具体情况进行调整。

编辑记录

报告相同问题？

关注问题

如何读取PDF文件中的印章？ java
2019-07-02 16:02

回答 4 已采纳有关 pdf 印章的操作，可以用 pageoffice 。
java中如何提取系统时间？ java
2017-10-11 14:05

回答 11 已采纳时钟
Java将ofd文件转换为pdf文件 java 有问必答
2021-05-25 14:26

回答 4 已采纳 github有个例子你可以下载下来参考下：https://github.com/wangyi160/ofdparser
Java编程思想(第4版)
2019-03-03 21:03

java经典名著,真正第四版中文完整高清PDF版，有完整的书籍目录，内容文字可复制，非常适合java学习和编程，豆瓣评分9.1分。是高等院校讲授面向对象程序设计语言以及Java语言的绝佳教材和参考书。适合春招秋招的java...
java语言和统计？？？？？？？？？？？？？？？ java
2015-11-27 07:19

回答 1 已采纳所谓统计，无非就是对数据批量的计算了。java在这点上和别的语言没有什么不同。
Java使用PDFbox读取PDF文件时表格内出现换行导致数据混乱 java 有问必答
2021-09-01 15:49

回答 1 已采纳读取的时候去掉换行符。
java编程练习题，求解？ java
2015-07-08 12:12

回答 4 已采纳 ``` package com.test.io; import java.io.File; import java.io.FileInputStream; import java.
[itext]Java生成PDF文件
2022-10-27 10:54

SKM！！！的博客 Java开发生成PDF上传到服务器，并下载。
java根据二维码图片或者base64获取出里面的URL？ java
2018-01-22 05:36

回答 3 已采纳 java识别二维码是需要外部jar包的 http://blog.csdn.net/u010640023/article/details/21904387 这篇文章讲的听清晰的，建议看一下
Java编程语言中数组的问题 java
2017-02-09 13:04

回答 8 已采纳首先你要想好如何去定义一个数据类型为数组的数组 int[] i 定义一个int的一维数组， int[][] i定义二维数组，分开看就可以理解为定义一个一维的数据元素为数组的数组。i[n]就是一
java代码实现pdf文档下载 java
2017-11-29 08:23

回答 6 已采纳 http://blog.csdn.net/zxgmdzz/article/details/78424705
【编程实践】编程语言之 Smalltalk
2023-04-01 12:31

禅与计算机程序设计艺术的博客 Smalltalk对其它众多的程序设计语言的产生起到了极大的推动作用，主要有：C++，C#，Objective-C，Actor，Java和Ruby等。90年代的许多软件开发思想得利于Smalltalk，例如设计模式、敏捷编程和代码重构等。
java 读取ppt pdf 特定页数 java
2018-12-11 06:51

回答 3 已采纳因为没有找到对PPT的读取方案，最后用openoffice 把word，PPTX都转换为PDF，然后读取PDF解决的。。哎
Java2游戏编程.pdf
2013-01-31 15:20

中文名: Java2游戏编程原名: Java 2 Game Programming 作者: Thomas Petchel译者: 晏利斌孙淑敏邵荣资源格式: PDF 版本: 扫描版出版社: 清华大学出版社书号: 7302112932发行时间: 2005年08月地区: 大陆语言: ...
在Java程序中创建和转换PDF文件
2022-02-21 09:30

androidstarjack的博客 //段落文本 String paragraph = "测试文字测试文字测试文字测试文字测试文字测试文字测试文字 " + "测试文字测试文字测试文字测试文字测试文字测试文字测试文字测试文字测试文字 " + "测试文字测试文字测试...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 4月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月25日

悬赏问题

¥15 如何用Labview在myRIO上做LCD显示？(语言-开发语言)
¥15 Vue3地图和异步函数使用
¥15 C++ yoloV5改写遇到的问题
¥20 win11修改中文用户名路径
¥15 win2012磁盘空间不足,c盘正常，d盘无法写入
¥15 用土力学知识进行土坡稳定性分析与挡土墙设计
¥70 PlayWright在Java上连接CDP关联本地Chrome启动失败,貌似是Windows端口转发问题
¥15 帮我写一个c++工程
¥30 Eclipse官网打不开，官网首页进不去，显示无法访问此页面，求解决方法
¥15 关于smbclient 库的使用

java如何提取出pdf里的文字？

20条回答 默认 最新

问题事件

悬赏问题

20条回答默认最新