今天用PHANTIONJS 爬取一个网页,结果输出的基本全是乱码,
部分英文字符也出现了乱码。。请问有没有人遇到过
更新帖子,防止沉底
求爬虫大佬啊
今天用PHANTIONJS 爬取一个网页,结果输出的基本全是乱码,
部分英文字符也出现了乱码。。请问有没有人遇到过
更新帖子,防止沉底
求爬虫大佬啊
应该不是 PHANTIONJS 的问题,可能是页面压缩过的,需要用压缩流的方式解压才可以。参考:
BufferedReader bufferedReader = null;
String encoding = conn.getContentEncoding();
if ("gzip".equals(encoding)) {
GZIPInputStream gZIPInputStream = new GZIPInputStream(in);
bufferedReader = new BufferedReader(new InputStreamReader(gZIPInputStream, "utf-8"));
} else {
bufferedReader = new BufferedReader(new InputStreamReader(in, "utf-8"));
}
String str = null;
while ((str = bufferedReader.readLine()) != null) {
out.write(str.getBytes());
}