最近在使用iText实现pdf文本内容的抽取,我使用PdfTextExtractor.getTextFromPage将每一页中的文本提取出来,但是提取出来的txt文件当中全是空格,没有一个文字,请问这是什么情况?是pdf文档的问题还是代码的问题啊?
public class GetText
{
public static void main(String[] args) throws DocumentException, IOException
{
String outputpath = "XXX.txt";//txt文件路径
PrintWriter writer = new PrintWriter(new FileOutputStream(outputpath));//txt文件写入流
String pdffilepath = "XXX.pdf";//pdf文件路径
inspect(writer,pdffilepath); //调用读取方法
writer.close();
}
public static void inspect(PrintWriter writer, String filename) throws IOException
{
try {
PdfReader reader = new PdfReader(filename); //读取pdf所使用的输出流
int PageNum = reader.getNumberOfPages();//获得页数
String content = ""; //存放读取出的文档内容
for (int i = 1; i <=PageNum; i++)
{
content += PdfTextExtractor.getTextFromPage(reader, i);//读取第i页的文档内容
}
writer.write(content);//写入文件内容
writer.flush();
} catch (IOException e) {
e.printStackTrace();
}
}
}