python抓取网页,网页源码无法解码

抓取的网页:http://esf.nanjing.fang.com/
浏览器查看源码显示content="text/html; charset=gb2312"
python chardet 结果显示{'confidence': 0.0, 'encoding': None}
通过page=page.decode('gb2312','ignore').encode('utf-8'),解码后print为乱码

求问应该如何对这个网页的源代码进行解码从而抓取需要的信息?

2个回答

python3 +.
需要安装urllib3.

你也可以试试,直接转换成gb2312.下面的代码亲测可用。

 http = urllib3.PoolManager()
    r=http.request('GET','http://esf.nanjing.fang.com/')
    print((r.data).decode('gb2312','ignore'))

图片说明

运行截图

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问