网页源码下载下来后，汉字成乱码？

我用软件自动下载网页源码，作为监控网站用的，发现字数超过三万字，整个文本的汉字都成乱码，没办法分析，拿去转换编码也没办法矫正。以下是代码
con = (HttpURLConnection) url.openConnection();

con.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");// IE代理进行下载

con.setConnectTimeout(120000);

con.setReadTimeout(120000);

// 获得网页返回信息码

responseCode = con.getResponseCode();

if (responseCode == -1) {

System.out.println(url.toString() + " : connection is failure...");

con.disconnect();

return null;

}

if (responseCode >= 400) //请求失败

{

System.out.println("请求失败:get response code: " + responseCode);

con.disconnect();

return null;

}

        InputStream inStr = con.getInputStream();  
        InputStreamReader istreamReader = new InputStreamReader(inStr, encode);  
        BufferedReader buffStr = new BufferedReader(istreamReader);  

        String str = null;  
        while ((str = buffStr.readLine()) != null)  
            contentBuffer.append(str);  
        inStr.close();  
    } catch (IOException e) {  
        e.printStackTrace();  
        contentBuffer = null;  
        System.out.println("error: " + url.toString());  
    } finally {  
        con.disconnect();  
    }

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

报告相同问题？

关注问题

易语言POST取网页源码乱码开发语言
2021-03-16 00:00

回答 2 已采纳临时文本 (编码转换 (网页_取源码（"你的网址链接"）, #编码_GB2312, #编码_UTF_8, ))
pythom 中文显示乱码？ python
2021-03-04 22:14

回答 1 已采纳 page_text是返回的text，没有encoding属性两种方法解决编码问题方法一 url='https://www.shicimingju.com/book/sanguoyanyi
Myeclipse查看源码，源码总是出现中文乱码？？
2009-11-25 17:01

回答 3 已采纳将Java Class File和java文件都设置为UTF-8 再重新关联一次
通过网页查看JS源码中汉字显示乱码的解决方法
2021-01-19 16:19

在网页中读取js文件，中文显示正常（比如alert出js文件的中文信息）。但当浏览器查看js文件源代码时，则会看到代码里的中文全是乱码。虽然不影响程序运行，但是在读js文件代码时，会受影响。前几天在浏览器查看自己...
pandas读取csv文件出现中文乱码现象？怎么解决 python 有问必答
2021-10-29 22:40

回答 1 已采纳 pd.read_csv 方法中设置文件编码参数 encoding="utf-8"或encoding="gbk" data = pd.read_csv( r'F:\2021python学习\视频课件\
使用python外部插件pycha时，出现中文乱码，有没有解决方案？ python
2017-12-15 04:09

回答 2 已采纳你可以换用 Matplotlib。
Source Insight中文注释显示乱码。怎么办？
2015-07-12 08:32

回答 4 已采纳 http://blog.csdn.net/ccf19881030/article/details/8987759 http://wenku.baidu.com/view/c4b9e9a808a128
易语言网页乱码转换
2020-08-20 05:12

易语言网页乱码转换源码系统结构:乱码转换, ======乱码转换程序集 || ||------乱码转换 || ||------__启动窗口_创建完毕
我想反编译一个C#的程序，可是出现了好多乱码？求助，第一次反编译 c#
2015-06-10 11:12

回答 5 已采纳如果编程的程序员不是按照标准的命名和写程序的格式来编程的话，反编译出来是乱码是正常的。字符编码格式不一样或者采用的语言不一样等都可能造成这个问题。
html文件，没有改。代码，仅仅是重新Ctrl+s了一下，然后就中文乱码了
2018-01-10 08:39

回答 11 已采纳可能和文本编辑器的默认编码有关。用记事本打开，另存为一下，另存为的时候可以选择你需要的编码格式，如utf-8等
spring mvc 程序从 jetty 移植到 tomcat 后乱码 tomcat
2011-11-15 09:18

回答 2 已采纳这种情况可以考虑在容器（tomcat）上做配置在$TOMCAT_HOME/conf下的server.xml中做如下配置：
Qt之解决QSettings中文乱码问题源码
2021-12-06 14:30

Qt之解决QSettings中文乱码问题源码，win10，MinGw32编译通过，问题正常解决
JavaScript 代码打开是乱码，可能是加密了？ javascript
2009-03-04 12:25

回答 2 已采纳没有加密哦。。应该是用GZIP压缩过的。。你别直接打开用WINRAR打开看下就知道了
js数据在html乱码,通过网页查看JS源码中汉字显示乱码的解决方法
2021-06-12 02:34

西岸先生的博客通过网页查看JS源码中汉字显示乱码的解决方法前言在网页中读取js文件，中文显示正常(比如alert出js文件的中文信息)。但当浏览器查看js文件源代码时，则会看到代码里的中文全是乱码。虽然不影响程序运行，但是在读js...
MATLAB去读网页源码时中文乱码
2022-09-08 17:38

嗷~呜~~的博客 MATLAB去读网页源码时中文乱码
没有解决我的问题, 去提问

悬赏问题

¥15 程序不包含适用于入口点的静态Main方法
¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记

码龄粉丝数原力等级 --

网页源码下载下来后，汉字成乱码？

0条回答默认最新

悬赏问题

网页源码下载下来后，汉字成乱码？

0条回答 默认 最新

悬赏问题

0条回答默认最新