python爬虫网站信息乱码问题

    uesr_agent = 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0'      
headers = {'User-agent':uesr_agent}
req = urllib.request.Request(url, headers = headers)
html_1 = urllib.request.urlopen(req, timeout=120).read()
#html = str(response.read(),'utf-8')

encoding_dict = chardet.detect(html_1)
#print encoding
web_coding = encoding_dict['encoding']
print (web_coding)
if web_coding == 'utf-8' or web_coding =='UTF-8':
    html = html_1
else:
    html = html_1.decode('gbk','ignore').encode('utf-8')
print (html)

    网站地址：
    http://nc.mofcom.gov.cn/channel/gxdj/jghq/jg_list.shtml?par_craft_index=13075&craft_index=20413&startTime=2014-01-01&endTime=2014-03-31&par_p_index=&p_index=&keyword=&page=1

    显示信息：![图片说明](https://img-ask.csdn.net/upload/201703/22/1490160982_691178.png)

    用的python3，把网上的方法都试了一遍，还是不行，不知道怎么办了，求助

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

oyljerry 2017-03-22 06:04

关注

对应内容UTF8编码处理一下

 In [5]: s = "\xe4\xbb\xb7\xe6\xa0\xbc\xe8\xa1\x8c\xe6\x83\x85".decode('utf8')   

In [6]: s                                                                       
Out[6]: u'\u4ef7\u683c\u884c\u60c5'                                             

In [7]: print(s)                                                                
价格行情

报告相同问题？

关注问题

Python网络爬虫出现乱码问题的解决方法
2020-12-24 08:10

在实际的Python爬虫开发中，处理汉字编码问题时，可以采取以下步骤： 1. 使用`chardet`检测网页内容的原始编码。 2. 将原始内容解码为Unicode，即`decode()`操作。 3. 将Unicode内容编码为目标编码，如UTF-8，即`...
解决Python网页爬虫之中文乱码问题
2020-09-20 11:57

在使用Python进行网页爬虫开发时，处理中文字符显示为乱码是一个常见的问题。在Web页面中，字符编码通常使用UTF-8，而Python在处理字符串时，默认使用Unicode编码。当爬虫从网页中获取内容，并将其输出或存储时，...
Python爬虫乱码问题
2024-03-26 21:11

ReverSe0930的博客 pyhton爬虫乱码解决思路： 1、比对html>head>meta中的charset设定的编码类型 2、设定为默认编码类型为所存储内容，response.encoding = 'UTF-8' 3with open('poems.txt','w',encoding='UTF-8') as f:写入的时候...
解决Python爬虫中的乱码问题
2023-03-14 17:02

Double Handsome的博客 1、我们可以拿一个简单的例子进行讲解，例如 #根据url发送请求返回数据 page = requests.get(url,headers) #对数据进行统一化编码 page.encoding = 'utf-8' #统一编码后取出文本数据就不会乱码了 page_text = page....
Python爬虫基于lxml解决数据编码乱码问题
2020-09-16 11:06

在Python爬虫开发中，经常会遇到数据编码导致的乱码问题。当爬取网页内容时，如果不正确地处理字符编码，输出的结果可能会显示为奇怪的符号，如"å·²éªè¯ å®å¨ ç¾ç"。这通常是因为网页的...
Python爬虫中文乱码问题
2022-11-07 15:10

摆烂刷题人的博客 Python爬虫中文乱码问题解决办法
2024年Python最新解决python爬虫中文乱码问题
2024-05-01 13:28

2401_84561420的博客也就是说text是解码完的数据，调用req.text(）就不需要解码了，问题经常出现解码中的类型码是否正确，这个下面在说，先明白text（）和content（）的区别。Python所有方向的技术点做的整理，形成各个领域的知识点汇总...
已解决Python爬虫网页中文乱码问题
2022-11-11 21:11

小满大王i的博客已解决Python爬虫网页中文乱码问题
3种Python爬虫中文乱码的处理方法
2024-08-08 17:59

编程阿布的博客 Python爬虫在抓取网页数据时，经常会遇到中文乱码问题。这通常是因为网页的编码格式与Python处理时使用的编码格式不一致导致的。以下是三种常见的处理中文乱码的方法，并附上相应的代码示例。
python爬虫出现乱码问题
2023-05-12 21:44

申小二的博客 from requests.packages import urllib3 urllib3.disable_warnings() ...url=BASE_URL response = requests.get(url,verify=False) response.encoding = response.apparent_encoding print(response.text) ...
没有解决我的问题, 去提问

码龄粉丝数原力等级 --

python爬虫网站信息乱码问题

3条回答默认最新

码龄粉丝数原力等级 --

python爬虫网站信息乱码问题

3条回答 默认 最新

3条回答默认最新