_lost 2015-07-06 07:47 采纳率: 0%
浏览 9366

如何使用iText实现pdf文本内容的抽取?

最近在使用iText实现pdf文本内容的抽取,我使用PdfTextExtractor.getTextFromPage将每一页中的文本提取出来,但是提取出来的txt文件当中全是空格,没有一个文字,请问这是什么情况?是pdf文档的问题还是代码的问题啊?

public class GetText 
{
    public static void main(String[] args) throws DocumentException, IOException
    {
        String outputpath = "XXX.txt";//txt文件路径
        PrintWriter writer = new PrintWriter(new FileOutputStream(outputpath));//txt文件写入流 
        String pdffilepath = "XXX.pdf";//pdf文件路径 
        inspect(writer,pdffilepath); //调用读取方法 
        writer.close(); 
    }
    public static void inspect(PrintWriter writer, String filename) throws IOException
    {
        try {
            PdfReader reader = new PdfReader(filename); //读取pdf所使用的输出流 
            int PageNum = reader.getNumberOfPages();//获得页数 

            String content = "";  //存放读取出的文档内容 
            for (int i = 1; i <=PageNum; i++)
            {
                content += PdfTextExtractor.getTextFromPage(reader, i);//读取第i页的文档内容 
            } 
            writer.write(content);//写入文件内容 
            writer.flush(); 
        } catch (IOException e) {
            e.printStackTrace();  
        }
     }
}
  • 写回答

3条回答 默认 最新

  • threenewbee 2015-07-06 14:05
    关注
    评论

报告相同问题?

悬赏问题

  • ¥20 有关区间dp的问题求解
  • ¥15 多电路系统共用电源的串扰问题
  • ¥15 slam rangenet++配置
  • ¥15 有没有研究水声通信方面的帮我改俩matlab代码
  • ¥15 对于相关问题的求解与代码
  • ¥15 ubuntu子系统密码忘记
  • ¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
  • ¥15 保护模式-系统加载-段寄存器
  • ¥15 电脑桌面设定一个区域禁止鼠标操作
  • ¥15 求NPF226060磁芯的详细资料