python爬虫网站信息乱码问题

    uesr_agent = 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0'      
headers = {'User-agent':uesr_agent}
req = urllib.request.Request(url, headers = headers)
html_1 = urllib.request.urlopen(req, timeout=120).read()
#html = str(response.read(),'utf-8')

encoding_dict = chardet.detect(html_1)
#print encoding
web_coding = encoding_dict['encoding']
print (web_coding)
if web_coding == 'utf-8' or web_coding =='UTF-8':
    html = html_1
else:
    html = html_1.decode('gbk','ignore').encode('utf-8')
print (html)

    网站地址：
    http://nc.mofcom.gov.cn/channel/gxdj/jghq/jg_list.shtml?par_craft_index=13075&craft_index=20413&startTime=2014-01-01&endTime=2014-03-31&par_p_index=&p_index=&keyword=&page=1

    显示信息：![图片说明](https://img-ask.csdn.net/upload/201703/22/1490160982_691178.png)

    用的python3，把网上的方法都试了一遍，还是不行，不知道怎么办了，求助

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答

oyljerry 2017-03-22 06:04

关注

对应内容UTF8编码处理一下

 In [5]: s = "\xe4\xbb\xb7\xe6\xa0\xbc\xe8\xa1\x8c\xe6\x83\x85".decode('utf8')   

In [6]: s                                                                       
Out[6]: u'\u4ef7\u683c\u884c\u60c5'                                             

In [7]: print(s)                                                                
价格行情

报告相同问题？

关注问题

python爬虫乱码问题怎么解决 python
2022-04-20 16:13

回答 2 已采纳 with open ("mybaidu.html", mode = "w", encoding = "utf-8")这里面填一个encoding就好了
一个python requests 爬虫遇到乱码的问题 python 爬虫
2022-01-24 15:24

回答 2 已采纳 jsonData='{"\u6d4b\u8bd5": 12345, "\u5185\u5bb9": ["\u6211\u4e5f\u4e0d\u77e5\u9053\u6211\u8981\u5199
想请教一下python爬虫中文乱码问题 python 有问必答正则表达式
2021-07-02 22:54

回答 3 已采纳教你一招，请求数据之前先右键查看网页源代码，看看最上面的charset是啥，一般都是utf-8或者gbk的，要按它给的写程序，你这个网页是utf8编码，所以可以这样写，参考： import reque
Python网络爬虫出现乱码问题的解决方法
2020-12-24 08:10

关于爬虫乱码有很多各式各样的问题，这里不仅是中文乱码，编码转换、还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为解决方式是一致的，故在此统一说明。网络爬虫出现乱码的原因源网页编码和爬取下来...
Python 爬虫乱码 python 开发语言
2023-01-25 13:07

回答 3 已采纳有点怪，源代码在我的环境里运行后，没有乱码。想了想，有可能是如下原因导致乱码：（1）在用户未知的情况下，环境自动按某种格式编译了内容，然后在反复、不对应的编译格式转换下出现乱码。（2）指定的编码格
python爬虫中网页出现乱码如何解决？ python
2021-09-21 22:16

回答 1 已采纳 request.encoding = request.apparent_encoding
python爬虫，账号反爬怎么处理 python 爬虫
2021-09-08 19:39

回答 3 已采纳目前来看，账号反爬没有什么太好的应对措施。一旦你的账号确定被反爬了，就只能更换账号了，或者和网站客服沟通。对于账号反爬网站，一般来说，就是ip代理池和账号随机混用，还需要保证ip的质量，地域差异不要太
解决Python网页爬虫之中文乱码问题
2021-01-20 04:29

最近在学习网页爬虫时就遇到了这样一种问题，中文网站爬取下来的内容往往中文显示乱码。看过我之前博客的同学可能知道，之前爬取的一个学校网页就出现了这个问题，但是当时并没有解决，这着实成了我一个心病。这不，...
python中requests库中文乱码问题 html python 爬虫
2022-08-22 09:50

回答 5 已采纳设置一下编码集就行了： import requests url = 'https://www.baidu.com/s?%27' headers = { 'User-Agent': 'Mozilla
python爬虫无有效内容 python 爬虫
2023-02-20 09:04

回答 3 已采纳有用请采纳get()返回的resq你得看看encoding是不是UTF-8的编码，如果不是得重新设置。
python3爬虫出现文字乱码以及抓取不了全部数据 python
2020-09-18 13:51

回答 2 已采纳导入sys和io，然后 sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') #改变标准输出的默认编码
解决Python爬虫中的乱码问题
2023-03-14 17:02

Double Handsome的博客 1、我们可以拿一个简单的例子进行讲解，例如 #根据url发送请求返回数据 page = requests.get(url,headers) #对数据进行统一化编码 page.encoding = 'utf-8' #统一编码后取出文本数据就不会乱码了 page_text = page....
怎么解决python爬虫写入txt文件时出现的中文乱码问题 python 有问必答
2021-05-30 23:14

回答 2 已采纳在download函数代码中添加一行：r.encoding=r.apparent_encoding即可。 def download(self, url): r = requests.get
Python爬虫基于lxml解决数据编码乱码问题
2020-09-16 11:06

主要介绍了Python爬虫基于lxml解决数据编码乱码问题,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
Python爬虫中文乱码问题
2022-11-07 15:10

摆烂刷题人的博客 Python爬虫中文乱码问题解决办法
没有解决我的问题, 去提问

悬赏问题

¥15 有赏，i卡绘世画不出
¥15 如何用stata画出文献中常见的安慰剂检验图
¥15 c语言链表结构体数据插入
¥40 使用MATLAB解答线性代数问题
¥15 COCOS的问题COCOS的问题
¥15 FPGA-SRIO初始化失败
¥15 MapReduce实现倒排索引失败
¥15 ZABBIX6.0L连接数据库报错，如何解决？(操作系统-centos)
¥15 找一位技术过硬的游戏pj程序员
¥15 matlab生成电测深三层曲线模型代码

码龄粉丝数原力等级 --

python爬虫网站信息乱码问题

3条回答

码龄粉丝数原力等级 --

悬赏问题