xd66_tb88
2015-06-15 02:52poi的WordExtractor解析word03文件,出现文件中不存在的一个网址
使用POI的WordExtractor解析word文件的文本,提取出来的文本中出现此word文件内容中不存在的一个网址,具体说明如下:
import org.apache.poi.hwpf.extractor.WordExtractor;
public static void test1(String path) {
try {
InputStream in = new FileInputStream(new File(path));
WordExtractor extractor = new WordExtractor(in); //从输入流中加载word文档
String text2003 = extractor.getText().trim();
System.out.print(text2003);
in.close();
} catch (Exception e) {
e.printStackTrace();
}
}
public static void main(String[] args) {
test1("F:/爱在北欧宣传点.doc");
}

就是上面图片中“安徒生的童话故事将以话剧...”这句话被解析出来是以下这个样子的:
(http://www.visitdenmark.cn/sites/default/files/styles/article_slide_583x285/public/%E6%89%93%E7%81%AB%E5%8C%A3%E4%BA%B2%E5%AD%90%E6%B4%BB%E5%8A%A8%E4%B8%AD%E5%BF%832_%E5%89%AF%E6%9C%AC.jpg?itok=k1qloq1J" \o ")安徒生的童话故事将以话剧、故事讲述、剧院和艺术形式独具匠心的再现。
前面多了一个小括号括起来的网址,这是为何?
有经验的同行帮忙解决以下,感激!
- 点赞
- 回答
- 收藏
- 复制链接分享
1条回答
为你推荐
- 怎么使用poi将word中的指定标记(如${img})替换为图片?
- word
- poi
- java
- 0个回答
- 将excel文件导出不作任何操作再导入,用poi解析不到数据
- it技术
- 互联网问答
- IT行业问题
- 计算机技术
- 编程语言问答
- 0个回答
- 项目中使用相对路径找不到指定文件
- java
- 4个回答
- 用poi将word07转html 一直报错
- html5
- word
- poi
- 1个回答
- java用poi将word 变成html显示 如何设置head的meta标签
- poi
- java
- 1个回答