PHANTIONJS 网页乱码 有没有人碰到过 5C

今天用PHANTIONJS 爬取一个网页,结果输出的基本全是乱码,
部分英文字符也出现了乱码。。请问有没有人遇到过

更新帖子,防止沉底

求爬虫大佬啊

2个回答

应该不是 PHANTIONJS 的问题,可能是页面压缩过的,需要用压缩流的方式解压才可以。参考:

        BufferedReader bufferedReader = null;
        String encoding = conn.getContentEncoding();
        if ("gzip".equals(encoding)) {
            GZIPInputStream gZIPInputStream = new GZIPInputStream(in);
            bufferedReader = new BufferedReader(new InputStreamReader(gZIPInputStream, "utf-8"));
        } else {
            bufferedReader = new BufferedReader(new InputStreamReader(in, "utf-8"));
        }

        String str = null;
        while ((str = bufferedReader.readLine()) != null) {
             out.write(str.getBytes());
        }
viewgroup
viewgroup 我试了,不是gzip压缩造成的
10 个月之前 回复
viewgroup
viewgroup 你这个conn是从哪里来的?webdriver绑定PHANTIONJS服务,,然后获取网页,,不是URLconnection啊?
10 个月之前 回复
viewgroup
viewgroup 这个链接打开后找不到对应的文章。。
10 个月之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问