AbuTang 2016-04-29 02:56 采纳率: 0%
浏览 1719

python 爬虫 出现IOError错误

-*- coding:utf-8 -*-

#! /usr/bin/env python
import urllib
import urllib2
import re

page = 1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
user_agent = 'Mozilla/4.0(compatible;MSIE 5.5;Windows NT)'
headers = {'User-Agent':user_agent}

try:
request = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(request)
content = response.read().decode('utf-8','ignore')
pattern = re.compile(r'

?<img.?>.*?.*?.*?(.*?)', re.S)
items = re.findall(pattern,content)
for item in items:
print item[0],item[1]

except urllib2.URLError, e:
if hasattr(e,"code"):
print e.code
if hasattr(e,"reason"):
print e.reason


```这是出现错误的信息,在powershell中设置chcp 65001就会出现IOError错误,设置成chcp 437或者936就会出现下面的乱码,请问是什么原因?


  • 写回答

1条回答

  • 会编程的大白熊 2016-05-07 06:04
    关注
    1. 首先将文件设置为utfu0
    2. print是否打印出信息取决于终端编码,可以将print需要打印的信息先转换为unicode编码,然后再转换为终端对应的编码
    评论

报告相同问题?

悬赏问题

  • ¥15 如何在scanpy上做差异基因和通路富集?
  • ¥20 关于#硬件工程#的问题,请各位专家解答!
  • ¥15 关于#matlab#的问题:期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707,使系统具有较小的超调量
  • ¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
  • ¥30 截图中的mathematics程序转换成matlab
  • ¥15 动力学代码报错,维度不匹配
  • ¥15 Power query添加列问题
  • ¥50 Kubernetes&Fission&Eleasticsearch
  • ¥15 報錯:Person is not mapped,如何解決?
  • ¥15 c++头文件不能识别CDialog