抓取的网页:http://esf.nanjing.fang.com/
浏览器查看源码显示content="text/html; charset=gb2312"
python chardet 结果显示{'confidence': 0.0, 'encoding': None}
通过page=page.decode('gb2312','ignore').encode('utf-8'),解码后print为乱码
求问应该如何对这个网页的源代码进行解码从而抓取需要的信息?
抓取的网页:http://esf.nanjing.fang.com/
浏览器查看源码显示content="text/html; charset=gb2312"
python chardet 结果显示{'confidence': 0.0, 'encoding': None}
通过page=page.decode('gb2312','ignore').encode('utf-8'),解码后print为乱码
求问应该如何对这个网页的源代码进行解码从而抓取需要的信息?
python3 +.
需要安装urllib3.
你也可以试试,直接转换成gb2312.下面的代码亲测可用。
http = urllib3.PoolManager()
r=http.request('GET','http://esf.nanjing.fang.com/')
print((r.data).decode('gb2312','ignore'))