python爬取网页上的中文,输出乱码怎么办?

我用的是mac,用的python版本是3.6。想要爬取政府网站上的一些信息,然而出来的都是乱码,如图:

图片说明

下面是我的代码:

import io
import sys
from urllib.request import urlopen
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')
    #转码为utf-8格式

from bs4 import BeautifulSoup
import requests,urllib,time,string,chardet

url = 'http://www.wenzhou.gov.cn/art/2017/7/18/art_1235230_8460404.html'

headers = {
'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'
}

page=requests.get(url,headers=headers)
soup=BeautifulSoup(page.text,'lxml')
txts=soup.select('p')
for txt in txts:
    print(txt)

请各位大神指导!

2个回答

查看原网站的编码是什么,鼠标右键,编码,

soxvlin
soxvlin 谢谢!之前查过原网站编码也是utf-8,所以就不知道问题出在哪了T_T
接近 3 年之前 回复

可以试试转为其他编码,比如gbk,我之前遇到过类似的.多试几次其他编码就好了.

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问
相关内容推荐