python抓取网页，网页源码无法解码

抓取的网页：http://esf.nanjing.fang.com/
浏览器查看源码显示content="text/html; charset=gb2312"
python chardet 结果显示{'confidence': 0.0, 'encoding': None}
通过page=page.decode('gb2312','ignore').encode('utf-8'),解码后print为乱码

求问应该如何对这个网页的源代码进行解码从而抓取需要的信息？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
JPF1024 2015-11-02 01:39
关注
python3 +.
需要安装urllib3.

你也可以试试，直接转换成gb2312.下面的代码亲测可用。

http = urllib3.PoolManager() r=http.request('GET','http://esf.nanjing.fang.com/') print((r.data).decode('gb2312','ignore'))
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

python抓取网页，网页源码无法解码 python
2015-11-01 11:55

回答 2 已采纳 python3 +. 需要安装urllib3. 你也可以试试，直接转换成gb2312.下面的代码亲测可用。 ``` http = urllib3.PoolManager() r=
一个Python抓取网页数据的问题 python 有问必答
2021-04-21 08:19

回答 7 已采纳这个长的字符串, 前面后面各加一个[ ], 就成了'[[],[]]'' 这种格式, 可以用eval()再转换一下, 就成了[[],[]] 可以生成数组或者dataframe,dataframe可转成
python 如何抓取网页地址保存为图片？ python
2021-11-09 13:05

回答 1 已采纳 PIL ,或者pyautogui
python3网页源码解析_Python网页解析
2020-11-30 05:28

weixin_39707725的博客续上篇文章，网页抓取到手之后就是解析网页了。在Python中解析网页的库不少，我最开始使用的是BeautifulSoup，貌似这个也是Python中最知名的HTML解析库。它主要的特点就是容错性很好，能很好地处理实际生活中各种...
python抓取网页源码时，打印的源码（默认使用IE解析）不解析，哪位大神有解决办法呀 python selenium 测试用例
2020-11-11 17:29

回答 1 已采纳什么意思？？？需要指定浏览器进行解析？？你圈出来的那句话不是为了匹配浏览器的吗？？解析使用bs4啊
python中如何自动跳转到一个网页 python 有问必答
2022-05-11 08:42

回答 3 已采纳 url换成对应地址 import webbrowser url= "http://www.baidu.com" webbrowser.open(url)
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
python3网页源码解析_Python3使用Requests抓取网页乱码问题
2020-12-04 11:29

weixin_39833687的博客源码代码如下, 基于Python 3.5 # 猜测网页编码 def guess_response_encoding(response): if response.encoding == 'ISO-8859-1': if response.content[:2] == b"\x1f\x8b": # gzip header content = gzip....
python 爬取网页里面的xhr文件。 css html5 python
2019-05-07 20:14

回答 1 已采纳首先，在常规头部获取请求的url，然后查看请求方法，获取请求状态，如果是失败，就说明不是这个。然后，请求头部，将所有的headers放到requests的headers参数里面(可以包含cooki
python抓取网页上的表格写入CSV，0开头的数字，怎么能完整的写入csv？ python 爬虫
2022-08-20 08:49

回答 3 已采纳 import pandas as pd df = pd.DataFrame() for i in range(1, 5): url = f'http://vip.stock.finance
Python的requests.get()获取不到正确的网页源码 python 有问必答
2021-06-21 14:46

回答 2 已采纳需要添加headers。 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36
python 实时抓取网页数据并进行筛查
2022-08-23 20:02

wiggle coin的博客 python 实时抓取网页数据并进行筛查
Python获取网页源数据失败 ajax python 爬虫
2021-11-25 21:03

回答 2 已采纳 https://image.baidu.com/search/acjson? 这个开头的链接就是百度图片json数据存放的位置，另外爬百度图片的时候记得请求头带上Cookie~
python抓取网页内容到excel,python爬虫抓取网页数据
2024-01-08 06:49

Bxwfjdjdbdgj的博客大家好，小编来为大家解答以下问题，python网页数据抓取淘宝完整代码，python抓取网页数据并写入excel，现在让我们一起来看看吧！下面就按这个路线逐一讲讲各部分的内容；HTTP协议是一个应用层面向对象协议，也叫超...
使用 Python3 获取网页源代码
2022-12-23 21:57

猿小猴子的博客爬虫的数据爬取量非常大，显然不可能对每个页面都手动复制源代码，因此就有必要使用自动化的方式来获取网页源代码。
没有解决我的问题, 去提问

悬赏问题

¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？
¥15 c++头文件不能识别CDialog