黄菲 2014-04-18 11:14
浏览 685
已采纳

java如何读取doc文件

使用java如何读取doc文件,保证不会乱码

  • 写回答

7条回答 默认 最新

  • fxhu09 2014-04-18 15:37
    关注

    如果不需要把图片读取出来,可以用下面的方法
    public static void testWord1(){

    try {

    //word 2003: 图片不会被读取

    InputStream is = new FileInputStream(new File("c:\a.doc"));

    WordExtractor ex = new WordExtractor(is);

    String text2003 = ex.getText().trim();

    System.out.println(text2003);

    //word 2007 图片不会被读取, 表格中的数据会被放在字符串的最后

    // OPCPackage opcPackage = POIXMLDocument.openPackage("c:\a.doc");

    // POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);

                   // String text2007 = extractor.getText();     
                  //System.out.println(text2007);     
    
         } catch (Exception e) {     
                   e.printStackTrace();     
         }   
    

    如果是word2003用前半部分
    如果是2007用后半部分

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(6条)

报告相同问题?