soxvlin 2017-07-26 08:52 采纳率: 0%
浏览 2218

python爬取网页上的中文,输出乱码怎么办?

我用的是mac,用的python版本是3.6。想要爬取政府网站上的一些信息,然而出来的都是乱码,如图:

图片说明

下面是我的代码:

import io
import sys
from urllib.request import urlopen
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')
    #转码为utf-8格式

from bs4 import BeautifulSoup
import requests,urllib,time,string,chardet

url = 'http://www.wenzhou.gov.cn/art/2017/7/18/art_1235230_8460404.html'

headers = {
'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'
}

page=requests.get(url,headers=headers)
soup=BeautifulSoup(page.text,'lxml')
txts=soup.select('p')
for txt in txts:
    print(txt)

请各位大神指导!

  • 写回答

2条回答

  • mumubaobei 2017-07-26 09:05
    关注

    查看原网站的编码是什么,鼠标右键,编码,

    评论

报告相同问题?

悬赏问题

  • ¥15 YoloV5 第三方库的版本对照问题
  • ¥15 请完成下列相关问题!
  • ¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像,如何解决?
  • ¥15 求daily translation(DT)偏差订正方法的代码
  • ¥15 js调用html页面需要隐藏某个按钮
  • ¥15 ads仿真结果在圆图上是怎么读数的
  • ¥20 Cotex M3的调试和程序执行方式是什么样的?
  • ¥20 java项目连接sqlserver时报ssl相关错误
  • ¥15 一道python难题3
  • ¥15 牛顿斯科特系数表表示