java如何读取doc文件

使用java如何读取doc文件，保证不会乱码

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

7条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
fxhu09 2014-04-18 15:37
关注
如果不需要把图片读取出来，可以用下面的方法
public static void testWord1(){

try {

//word 2003：图片不会被读取

InputStream is = new FileInputStream(new File("c:\a.doc"));

WordExtractor ex = new WordExtractor(is);

String text2003 = ex.getText().trim();

System.out.println(text2003);

//word 2007 图片不会被读取，表格中的数据会被放在字符串的最后

// OPCPackage opcPackage = POIXMLDocument.openPackage("c:\a.doc");

// POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);

// String text2007 = extractor.getText(); //System.out.println(text2007); } catch (Exception e) { e.printStackTrace(); }

如果是word2003用前半部分
如果是2007用后半部分
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(6条)

报告相同问题？

关注问题

java读取doc文件内容乱码
2024-06-30 03:27

陈起或虾扯蛋777的博客 Java读取doc文件内容乱码解决方案 1. 流程概述首先，我们需要使用Apache POI库来读取doc文件。然后，我们需要进行字符编码的转换，将乱码转换为正确的编码。最后，我们可以将文件内容输出到控制台或者其他适当的...
java 读取doc文件_如何在java中读取Doc或Docx文件？
2021-03-06 22:22

路路空间的博客我想在java中读一个word文件import org.apache.poi.poifs.filesystem.*;import org.apache.poi.hpsf.DocumentSummaryInformation;import org.apache.poi.hwpf.*;import org.apache.poi.hwpf.extractor.*;import org....
java 读取 doc_java如何读取doc文件
2021-02-12 17:41

Rachel瑞小秋的博客 24 25 26 public final class HWPFDocFixture 27 { 28 public static final String DEFAULT_TEST_FILE = "test.doc"; 29 30 public byte[] _tableStream; 31 public byte[] _mainStream; 32 public ...
Java中读取.doc文件的实战指南
2025-08-20 18:38

王奥雷的博客 Document类是Apache POI库中用于处理Microsoft Word文档的核心类，它允许开发者创建、编辑和读取Word文档（.doc或.docx格式）。通过Document类，开发者可以实现对文档内容的精细操作，包括但不限于添加、删除、修改...
java读取xps文件
2023-06-15 09:26

Java 读取 XPS 文件是将 XML Paper Specification (XPS) 文件内容提取并处理到 Java 应用程序中的过程。XPS 是一种基于 XML 的文件格式，主要用于创建、查看和打印文档，它与 PDF 类似，但主要在微软环境中使用。在 ...
java使用poi读取doc和docx文件的实现示例
2020-08-19 10:39

对于.doc文件，需要引入poi-scratchpad依赖，对于.docx文件，则需要引入poi-ooxml依赖。接下来，文章提供了读取.doc和.docx文件的示例代码。对于.doc文件，可以使用以下步骤： 1. 创建一个File对象指向.doc文件的...
java 读取 doc_java 笔记：读取 doc/docx 中文本
2021-02-12 17:41

蚂蚁小亮的博客场景：因要处理大量行业数据每个(大部分)单个项目文件中包含一份文档说明部分是txt,另外大部分是doc/docx.通过百度得到需要poi方式读取。大体是参考此处博主文章：...
java 读取 doc_java使用poi读取doc和docx文件的实现示例
2021-02-12 17:41

王后浪的博客于是在网上搜寻了一阵之后才发现原来doc文档和excel一样不能用普通的io流的方法来读取，而是也需要用poi，于是进行了一番尝试后，终于以正确的编码格式读取了这个doc文件。在网上搜索的过程中发现doc和...
Java 读取Doc/Docx 文档
2019-08-01 16:20

孤独的行走的博客 Java后台系统中常常会遇到读取文档内容的需求，今天把 Java 读取两种格式的word文档写了一个简单的工具类附上： 1. 需要添加 Apache.poi 的依赖  <dependency> <groupId>...
java如何保留doc格式并读取内容
2024-07-13 03:31

贼仙呐的博客如果想要在Java中保留doc格式并读取其中的内容，可以借助一些库和工具来实现这一功能。下面将介绍如何在Java中实现这一目标。保留doc格式文件要在Java中保留doc格式文件，可以使用Apache POI库。Apache POI是一个...
没有解决我的问题, 去提问

java如何读取doc文件

7条回答 默认 最新

7条回答默认最新