poi的WordExtractor解析word03文件，出现文件中不存在的一个网址

使用POI的WordExtractor解析word文件的文本，提取出来的文本中出现此word文件内容中不存在的一个网址，具体说明如下：
import org.apache.poi.hwpf.extractor.WordExtractor;

public static void test1(String path) {
try {
InputStream in = new FileInputStream(new File(path));
WordExtractor extractor = new WordExtractor(in); //从输入流中加载word文档
String text2003 = extractor.getText().trim();
System.out.print(text2003);
in.close();
} catch (Exception e) {
e.printStackTrace();
}
}

public static void main(String[] args) {
test1("F:/爱在北欧宣传点.doc");
}

 ![图片说明](https://img-ask.csdn.net/upload/201506/15/1434336629_643046.png)

 就是上面图片中“安徒生的童话故事将以话剧...”这句话被解析出来是以下这个样子的：

(http://www.visitdenmark.cn/sites/default/files/styles/article_slide_583x285/public/%E6%89%93%E7%81%AB%E5%8C%A3%E4%BA%B2%E5%AD%90%E6%B4%BB%E5%8A%A8%E4%B8%AD%E5%BF%832_%E5%89%AF%E6%9C%AC.jpg?itok=k1qloq1J" \o ")安徒生的童话故事将以话剧、故事讲述、剧院和艺术形式独具匠心的再现。

前面多了一个小括号括起来的网址，这是为何？
有经验的同行帮忙解决以下，感激!

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Mr mower 2019-08-15 09:29
关注
我也试过也会出现莫名url，可以换种方式，用getParagraphText()和stripFields方法可解决，
ByteArrayInputStream is = new ByteArrayInputStream(bytes);
WordExtractor extractor = new WordExtractor(is);
String [] para =extractor.getParagraphText();
StringBuilder sb=new StringBuilder();
for(String s:para){
System.out.println(WordExtractor.stripFields(s)); //去除特殊标签
System.out.println("---------------------------");
sb.append(WordExtractor.stripFields(s));
}
System.out.println(sb.toString());

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

java poi 将docx文件转html出现缺包问题不知道缺少哪一个包 java
2017-06-30 00:33

回答 3 已采纳 ![图片说明](https://img-ask.csdn.net/upload/201706/30/1498785608_734658.png) 应该是这四个都加，都包含在里面了，word，ex
Java 使用POI将word中的占位符替换为图片应该怎么操作？ java 后端
2022-02-21 11:28

回答 2 已采纳试试我的代码，测试是正确的。 import java.awt.image.BufferedImage; import java.io.File; import java.io.FileInputStr
java poi解析word问题，读取每段前自动生成的序号或目录结构 java
2014-12-11 08:46

回答 4 已采纳 https://my.oschina.net/u/3410302/blog/3048367 可以参考一下
java POI解析获取word文件内容
2022-03-04 15:55

weisian151的博客 1、需要的pom文件依赖 <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi</artifactId> <version>4.1.2</version> </dependency> <...
使用POI读取模板生成多个DOCX文件压缩成zip，解压后不是一个DOCX的word文档 java
2022-11-25 20:55

回答 2 已采纳从你解压的结果来看，就是一个docx 文档。猜想生成的本身就是一个docx文档，而不是多个docx文档，把.zip扩展名，改成.docx，应该可以直接打开。
java 如何使用POI将word模板中文字符替换成相应图表 java maven spring 有问必答
2022-11-14 12:01

回答 8 已采纳 http://deepoove.com/poi-tl/#_%E5%A4%9A%E7%B3%BB%E5%88%97%E5%9B%BE%E8%A1%A8可以看下这个组件
利用poi向word中填充数据 java
2020-07-31 12:35

回答 3 已采纳可以直接在word中用一个特殊的字符表示（所谓特殊，就是避免和实际的正文一样导致混淆）。比如说叫做" {{companyname}}"或者 "%%address" 这个你可以自己发挥这样，你
java poi读取word中附件_工具类_JavaPOI_Office文件内容读取
2021-01-13 17:51

怀柔远人的博客 if (excel.isFile() && excel.exists()) { //判断文件是否存在 Workbook wb;//根据文件后缀（xls/xlsx）进行判断 if ( "xls".equals(fileType)){ FileInputStream fis= new FileInputStream(excel); //文件流对象 wb...
Java中使用POI出现的问题 java 有问必答
2021-09-14 11:08

回答 1 已采纳代码中一个小错误都会导致word不能正常打开。但是word用电脑打开的时候,它会自检缺少什么项。建议跟着poi官网demo写写。
java poi 如何在doc模板中插入富文本 java 有问必答
2021-06-10 16:09

回答 2 已采纳题主说的需求恐怕实现不了，将html标签显示到doc上，doc不会编译HTML标签（标签只会原样输出），如果是想显示效果，那只有自己用POI类去编写跟富文本编辑器相同的效果，然后通过poi导出到d
JAVA 使用POI替换word中的某些字符串，在本地调试一切ok，在服务器上出现乱码 java
2019-04-18 14:12

回答 7 已采纳已经搞定，感谢上面大佬们的回复，确实是语言包的问题，因为word里面全弄的是微软雅黑这个字体，于是就单独把微软雅黑字体放进服务器，但是依旧是不行，于是我以为不是这个问题，今天实在是没招了，网上
poi 顺序解析word_利用POI读取word、Excel文件的最佳实践教程
2021-02-09 00:00

weixin_39667652的博客前言POI是 Apache 旗下一款读写微软家文档声名...我最近做的一个工具就是读取计算机中的 word 以及 excel 文件。POI结构说明包名称说明HSSF提供读写Microsoft Excel XLS格式档案的功能。XSSF提供读写Microsoft Exc...
java poi导出word java 后端有问必答
2023-03-07 12:16

回答 5 已采纳参考：通过段落样式的设置来添加红线 XWPFParagraph p = doc.createParagraph(); XWPFRun r = p.createRun(); p.setStyle("Cu
poi 顺序解析word_用poi解析word 总结
2020-12-22 05:23

weixin_39993989的博客 1. 获得word的文本内容无任何格式样式图片try{FileInputStream fis = new FileInputStream...WordExtractor ex = new WordExtractor(fis);String text2003 = ex.getText();System.out.println("word的内容信息...
java poi读取word中附件_java使用poi读取ppt文件和poi读取excel、word示例
2020-12-31 09:40

Nakano qm的博客 java使用poi读取ppt文件和poi读取excel、word示例java使用poi读取ppt文件和poi读取excel、word示例java使用poi读取ppt文件和poi读取excel、word示例开源中国发表于2014-08-1821:59:28Apache的POI项目可以用来处理MS...
没有解决我的问题, 去提问

悬赏问题

¥15 FPGA-SRIO初始化失败
¥15 MapReduce实现倒排索引失败
¥15 luckysheet
¥15 ZABBIX6.0L连接数据库报错，如何解决？(操作系统-centos)
¥15 找一位技术过硬的游戏pj程序员
¥15 matlab生成电测深三层曲线模型代码
¥50 随机森林与房贷信用风险模型
¥50 buildozer打包kivy app失败
¥30 在vs2022里运行python代码
¥15 不同尺寸货物如何寻找合适的包装箱型谱

poi的WordExtractor解析word03文件，出现文件中不存在的一个网址

1条回答 默认 最新

悬赏问题

1条回答默认最新