网页源码下载下来后，汉字成乱码？

我用软件自动下载网页源码，作为监控网站用的，发现字数超过三万字，整个文本的汉字都成乱码，没办法分析，拿去转换编码也没办法矫正。以下是代码
con = (HttpURLConnection) url.openConnection();

con.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");// IE代理进行下载

con.setConnectTimeout(120000);

con.setReadTimeout(120000);

// 获得网页返回信息码

responseCode = con.getResponseCode();

if (responseCode == -1) {

System.out.println(url.toString() + " : connection is failure...");

con.disconnect();

return null;

}

if (responseCode >= 400) //请求失败

{

System.out.println("请求失败:get response code: " + responseCode);

con.disconnect();

return null;

}

        InputStream inStr = con.getInputStream();  
        InputStreamReader istreamReader = new InputStreamReader(inStr, encode);  
        BufferedReader buffStr = new BufferedReader(istreamReader);  

        String str = null;  
        while ((str = buffStr.readLine()) != null)  
            contentBuffer.append(str);  
        inStr.close();  
    } catch (IOException e) {  
        e.printStackTrace();  
        contentBuffer = null;  
        System.out.println("error: " + url.toString());  
    } finally {  
        con.disconnect();  
    }

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

报告相同问题？

关注问题

易语言POST取网页源码乱码开发语言
2021-03-16 00:00

回答 2 已采纳临时文本 (编码转换 (网页_取源码（"你的网址链接"）, #编码_GB2312, #编码_UTF_8, ))
pythom 中文显示乱码？ python
2021-03-04 22:14

回答 1 已采纳 page_text是返回的text，没有encoding属性两种方法解决编码问题方法一 url='https://www.shicimingju.com/book/sanguoyanyi
Myeclipse查看源码，源码总是出现中文乱码？？
2009-11-25 17:01

回答 3 已采纳将Java Class File和java文件都设置为UTF-8 再重新关联一次
通过网页查看JS源码中汉字显示乱码的解决方法
2021-01-19 16:19

在网页中读取js文件，中文显示正常（比如alert出js文件的中文信息）。但当浏览器查看js文件源代码时，则会看到代码里的中文全是乱码。虽然不影响程序运行，但是在读js文件代码时，会受影响。前几天在浏览器查看自己...
pandas读取csv文件出现中文乱码现象？怎么解决 python 有问必答
2021-10-29 22:40

回答 1 已采纳 pd.read_csv 方法中设置文件编码参数 encoding="utf-8"或encoding="gbk" data = pd.read_csv( r'F:\2021python学习\视频课件\
使用python外部插件pycha时，出现中文乱码，有没有解决方案？ python
2017-12-15 04:09

回答 2 已采纳你可以换用 Matplotlib。
Source Insight中文注释显示乱码。怎么办？
2015-07-12 08:32

回答 4 已采纳 http://blog.csdn.net/ccf19881030/article/details/8987759 http://wenku.baidu.com/view/c4b9e9a808a128
易语言网页乱码转换
2020-08-20 05:12

易语言网页乱码转换源码系统结构:乱码转换, ======乱码转换程序集 || ||------乱码转换 || ||------__启动窗口_创建完毕
我想反编译一个C#的程序，可是出现了好多乱码？求助，第一次反编译 c#
2015-06-10 11:12

回答 5 已采纳如果编程的程序员不是按照标准的命名和写程序的格式来编程的话，反编译出来是乱码是正常的。字符编码格式不一样或者采用的语言不一样等都可能造成这个问题。
html文件，没有改。代码，仅仅是重新Ctrl+s了一下，然后就中文乱码了
2018-01-10 08:39

回答 11 已采纳可能和文本编辑器的默认编码有关。用记事本打开，另存为一下，另存为的时候可以选择你需要的编码格式，如utf-8等
spring mvc 程序从 jetty 移植到 tomcat 后乱码 tomcat
2011-11-15 09:18

回答 2 已采纳这种情况可以考虑在容器（tomcat）上做配置在$TOMCAT_HOME/conf下的server.xml中做如下配置：
Qt之解决QSettings中文乱码问题源码
2021-12-06 14:30

Qt之解决QSettings中文乱码问题源码，win10，MinGw32编译通过，问题正常解决
JavaScript 代码打开是乱码，可能是加密了？ javascript
2009-03-04 12:25

回答 2 已采纳没有加密哦。。应该是用GZIP压缩过的。。你别直接打开用WINRAR打开看下就知道了
js数据在html乱码,通过网页查看JS源码中汉字显示乱码的解决方法
2021-06-12 02:34

西岸先生的博客通过网页查看JS源码中汉字显示乱码的解决方法前言在网页中读取js文件，中文显示正常(比如alert出js文件的中文信息)。但当浏览器查看js文件源代码时，则会看到代码里的中文全是乱码。虽然不影响程序运行，但是在读js...
MATLAB去读网页源码时中文乱码
2022-09-08 17:38

嗷~呜~~的博客 MATLAB去读网页源码时中文乱码
没有解决我的问题, 去提问

悬赏问题

¥20 usb设备兼容性问题
¥15 错误(10048): “调用exui内部功能”库命令的参数“参数4”不能接受空数据。怎么解决啊
¥15 安装svn网络有问题怎么办
¥15 Python爬取指定微博话题下的内容，保存为txt
¥15 vue2登录调用后端接口如何实现
¥65 永磁型步进电机PID算法
¥15 sqlite 附加（attach database）加密数据库时，返回26是什么原因呢？
¥88 找成都本地经验丰富懂小程序开发的技术大咖
¥15 如何处理复杂数据表格的除法运算
¥15 如何用stc8h1k08的片子做485数据透传的功能？(关键词-串口)

码龄粉丝数原力等级 --

网页源码下载下来后，汉字成乱码？

0条回答默认最新

悬赏问题

网页源码下载下来后，汉字成乱码？

0条回答 默认 最新

悬赏问题

0条回答默认最新