2 qq 32236581 qq_32236581 于 2016.01.31 00:24 提问

python爬虫读不出网站代码的问题

import urllib
import urllib2
page=1
url='http://www.qiushibaike.com/hot/page/'+str(page)
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers={'User_Agent': user_agent}
try:
request=urllib2.Request(url,headers=headers)
response=urllib2.urlopen(request)
print response.read()
except urllib2.URLError,e:
if hasattr(e,"code"):
print e.code
if hasattr(e,"reason"):
print e.reason

    用了代理还是读不出网页代码
        raise BadStatusLine(line)

BadStatusLine: ''
这是错误提示

2个回答

caozhy
caozhy   Ds   Rxr 2016.01.31 07:00

你的user agent很老,没有附加cookie,referer等,你的代理是透明代理封掉了你的ip等等都有可能。

先用浏览器去访问,确保成功,用fiddler抓包,对照写你的程序。

oyljerry
oyljerry   Ds   Rxr 2016.01.31 09:26

这个错误一般是服务器不接受你请求 直接返回错误了

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!