nans 2014-09-17 14:26
浏览 2244

网页源码下载下来后,汉字成乱码?

我用软件自动下载网页源码,作为监控网站用的,发现字数超过三万字,整个文本的汉字都成乱码,没办法分析,拿去转换编码也没办法矫正。以下是代码
con = (HttpURLConnection) url.openConnection();

con.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");// IE代理进行下载

con.setConnectTimeout(120000);

con.setReadTimeout(120000);

// 获得网页返回信息码

responseCode = con.getResponseCode();

if (responseCode == -1) {

System.out.println(url.toString() + " : connection is failure...");

con.disconnect();

return null;

}

if (responseCode >= 400) //请求失败

{

System.out.println("请求失败:get response code: " + responseCode);

con.disconnect();

return null;

}

        InputStream inStr = con.getInputStream();  
        InputStreamReader istreamReader = new InputStreamReader(inStr, encode);  
        BufferedReader buffStr = new BufferedReader(istreamReader);  

        String str = null;  
        while ((str = buffStr.readLine()) != null)  
            contentBuffer.append(str);  
        inStr.close();  
    } catch (IOException e) {  
        e.printStackTrace();  
        contentBuffer = null;  
        System.out.println("error: " + url.toString());  
    } finally {  
        con.disconnect();  
    }  
  • 写回答

0条回答 默认 最新

    报告相同问题?

    悬赏问题

    • ¥20 usb设备兼容性问题
    • ¥15 错误(10048): “调用exui内部功能”库命令的参数“参数4”不能接受空数据。怎么解决啊
    • ¥15 安装svn网络有问题怎么办
    • ¥15 Python爬取指定微博话题下的内容,保存为txt
    • ¥15 vue2登录调用后端接口如何实现
    • ¥65 永磁型步进电机PID算法
    • ¥15 sqlite 附加(attach database)加密数据库时,返回26是什么原因呢?
    • ¥88 找成都本地经验丰富懂小程序开发的技术大咖
    • ¥15 如何处理复杂数据表格的除法运算
    • ¥15 如何用stc8h1k08的片子做485数据透传的功能?(关键词-串口)