PHANTIONJS 网页乱码有没有人碰到过

今天用PHANTIONJS 爬取一个网页，结果输出的基本全是乱码，
部分英文字符也出现了乱码。。请问有没有人遇到过

更新帖子，防止沉底

求爬虫大佬啊

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答

杨子言 2019-09-03 10:25

关注

应该不是 PHANTIONJS 的问题，可能是页面压缩过的，需要用压缩流的方式解压才可以。参考：

        BufferedReader bufferedReader = null;
        String encoding = conn.getContentEncoding();
        if ("gzip".equals(encoding)) {
            GZIPInputStream gZIPInputStream = new GZIPInputStream(in);
            bufferedReader = new BufferedReader(new InputStreamReader(gZIPInputStream, "utf-8"));
        } else {
            bufferedReader = new BufferedReader(new InputStreamReader(in, "utf-8"));
        }

        String str = null;
        while ((str = bufferedReader.readLine()) != null) {
             out.write(str.getBytes());
        }

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

PHANTIONJS 网页乱码 有没有人碰到过 java
2019-09-03 09:42

回答 2 已采纳应该不是 PHANTIONJS 的问题，可能是页面压缩过的，需要用压缩流的方式解压才可以。参考： ``` BufferedReader bufferedReader = nul
【java】使用字符流复制文件乱码 java
2022-04-02 13:04

回答 1 已采纳要保证 java.txt 文件使用 GBK 编码存储才能用 GBK 编码读取，否则就会乱码，如果你不确定编码类型的话可以改成 UTF-8 试试看，这个编码用的比较多。
运行CMDjava显示正常但是javac却是乱码 java 开发语言有问必答
2021-11-24 13:11

回答 2 已采纳主要可能是因为编码的原问题，文件和cmd窗口命令编码可能不一致导致的，记事本打开Java文件后点击文件--》另存为选择编码，如果你当前编码是UTF-8就改成ANSI,如果是ANSI，就改成UTF-
java碰到乱码如何解决方法,解决java乱码的方法
2021-04-24 14:43

不撕的博客解决java乱码的方法java的乱码问题一直很是烦人，现在有时间总结一下1、表单使用post方式提交这种情况比较好解决，只需在servlet中加入request.setCharacterEncoding("utf-8");即可，当然也可以是其他的编码方式。...
java读写ini文件出现乱码如何解决？ java 后端
2021-12-09 14:42

回答 1 已采纳你是windows还是linux在windows下建立txt，默认的编码格式是ANSI你要改成UTF-8才行
c++ 接收java netty通道发来的数据会有乱码问题？ c++ java
2022-08-26 09:11

回答 1 已采纳两边字符集不一致吧
java读取linux服务器的数据显示乱码 java
2022-05-05 14:52

回答 2 已采纳这不是乱码,是Unicode编码解码示例： String decodeStr = new String(yourStr.getBytes("ISO8859-1"), "utf-8");
java碰到乱码如何解决方法_如何处理java的乱码
2021-03-01 10:02

Wong Kosheng的博客为什么说乱码是中国程序员无法避免的话题呢？这个首先要从编码机制上说起，大家都是中文和英文的编码格式不是一样，解码也是不一样的！如果中国的程序员不会遇到乱码，那么只有使用汉语编程。...如果项目里面有乱码...
Java执行cmd指令，中文输出乱码 java
2022-12-13 01:27

回答 2 已采纳 @Test public void test222() { BufferedReader br = null; try { P
java注解有乱码，不知道可以恢复不？ java
2021-12-05 12:14

回答 4 已采纳这乱码是口字码，就是大部分字符变成了你这样带问号的小方块原因是用utf-8的方式读取了gbk编码的中文，所以你改成utf-8编码肯定读不出来将idea编码改成gbk编码即可。
Java的io流输出有空格且首字符乱码 java
2022-01-14 16:36

回答 2 已采纳两个问题, 其实楼上已经给出代码了, 这里我解释下多出许多空格: 因为你把读取的内容读取到数组中去了, 数组的长度设置长了打印的时候直接把数组整个打印了, 数组内没有被字符占用的就变成空
java 中文文件路径乱码解决方法
2020-12-09 17:55

青山abc的博客由于使用CMD运行java程序的时候，系统默认的编码格式是gbk。而包含中文字符的代码一般是UNICODE格式，所以直接运行含有中文字符的代码就很容易出现编码错误。解决方法一将代码文件编码格式设置为“使用ANSI格式...
Java在屏幕上输出文本出现乱码 java
2022-04-24 09:56

回答 2 已采纳都改成UTF-8,包括我截图位置
Java文件下载中文文件名乱码的解决方案
2023-07-10 07:30

爱编程的喵喵的博客本文主要介绍了Java文件下载中文文件名乱码的解决方案，希望能对学习Java的同学们有所帮助。文章目录 1. 问题描述 2. 原因分析 2.1 Content-Disposition的几种写法 2.2 不同写法的分析 3. 解决方案
Java中文乱码浅析及解决方案
2024-03-28 00:58

南方淮竹的博客 Java中文乱码问题是Java开发中常见的问题之一，尤其在处理字符串、文件读写、网络传输以及数据库操作时经常遇到。中文乱码问题主要是由于字符编码不一致所导致的。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月9日

悬赏问题

¥15 安卓adb backup备份应用数据失败
¥15 eclipse运行项目时遇到的问题
¥15 关于#c##的问题：最近需要用CAT工具Trados进行一些开发
¥15 南大pa1 小游戏没有界面，并且报了如下错误，尝试过换显卡驱动，但是好像不行
¥15 没有证书，nginx怎么反向代理到只能接受https的公网网站
¥50 成都蓉城足球俱乐部小程序抢票
¥15 yolov7训练自己的数据集
¥15 esp8266与51单片机连接问题(标签-单片机|关键词-串口)（相关搜索：51单片机|单片机|测试代码）
¥15 电力市场出清matlab yalmip kkt 双层优化问题
¥30 ros小车路径规划实现不了，如何解决？(操作系统-ubuntu)

PHANTIONJS 网页乱码 有没有人碰到过

2条回答

问题事件

悬赏问题

PHANTIONJS 网页乱码有没有人碰到过