2 qq 32236581 qq_32236581 于 2016.01.31 00:24 提问

python爬虫读不出网站代码的问题

import urllib
import urllib2
page=1
url='http://www.qiushibaike.com/hot/page/'+str(page)
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers={'User_Agent': user_agent}
try:
request=urllib2.Request(url,headers=headers)
response=urllib2.urlopen(request)
print response.read()
except urllib2.URLError,e:
if hasattr(e,"code"):
print e.code
if hasattr(e,"reason"):
print e.reason

    用了代理还是读不出网页代码
        raise BadStatusLine(line)

BadStatusLine: ''
这是错误提示

2个回答

caozhy
caozhy   Ds   Rxr 2016.01.31 07:00

你的user agent很老,没有附加cookie,referer等,你的代理是透明代理封掉了你的ip等等都有可能。

先用浏览器去访问,确保成功,用fiddler抓包,对照写你的程序。

oyljerry
oyljerry   Ds   Rxr 2016.01.31 09:26

这个错误一般是服务器不接受你请求 直接返回错误了

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
python 爬虫获取网站信息(二)
爬取网站:http://www.xici.net.co/nn 伪代码的功能是,爬取网页上的数据,通过正则表达式,对需要的数据进行提取,并将这些数据插入到数据中。 在爬取的过程中遇到了两个问题,让我一直很头疼一、之前网站还可以正常提取,但后来可能用爬虫爬取的次数多了,网站可能进行了反爬虫修改,这也在程序中有所体现。这个问题纠结了好久。二、问题_mysql_exceptions.Operationa
《用Python写网络爬虫》示例网站访问不了导致的系列问题解决办法
由于这个示例网站现在打开不成功,导致书中的例子的具体实现遇到一些问题,在这里我根据我自己的学习进度与能力尽量解决我遇到的问题,在这里分享给需要的朋友,本博客持续更新 http://blog.csdn.net/dzkqstranger/article/details/72764946 首先解决访问网站的问题 1.4.2节访问的sitemap.xml网站的地址为:http://127.0.0.1:800
Python大神带你用30行代码打造一个网站,爬虫+web不一样的玩法
首先,先把实际的效果图放上来:用Python做的个性签名网站-效果图在开始做之前,我们必须得知道这个用了那些模块:flask:一个轻量级的web开发框架,相信很多人也听说过这个牛逼加简洁的框架requests:这个模块就更不用说了,做爬虫没有人不知道的一个模块BeautifulSoup:bs4是专门用来处理爬取内容的一个库,相比于re模块,这个也是相当人性化的好了,看了这么多,要讲一下实际制作了:...
Python3网络爬虫(一):利用urllib进行简单的网页抓取
运行平台:Windows10 Python版本:Python3.x IDE:Sublime text3
Python爬虫之路——简单的网页抓图
用Python的urllib2库和HTMLParser库写了一个简单的抓图脚本,主要抓的是http://desk.zol.com.cn/meinv/这个链接下的图片,通过得到图集的起始URL地址,得到第一张图片,然后不断的去获取其下一个图片的URL,继而得到所有首页的图集的图片。 整个源码如下,比较简单,写这个只是简单的练手而已 #coding: utf-8 #############
python网络爬虫文档读取-纯文本读取
python网络爬虫文档读取-纯文本读取,在互联网中,文档的读取经常会出现,如何在爬虫中高效地采集纯文本文档的数据,需要注意文档的编码。
【Python爬虫2】网页数据提取
提取数据方法 1 正则表达式 2 流行的BeautifulSoup模块 3 强大的Lxml模块 性能对比 为链接爬虫添加抓取回调 1 回调函数一 2 回调函数二 3 复用上章的链接爬虫代码 我们让这个爬虫比每个网页中抽取一些数据,然后实现某些事情,这种做法也被称为提取(scraping)。
python爬虫入门篇------爬取网页源代码
需求: 爬取用户输入网站的源代码,并导入到本地文件中. 实现思路: 利用python的urllib模块,打开网址读取源代码,然后在本地创建文件,将读取的代码写入.import urllib.request def grab(url): # 打开传入的网址 resp = urllib.request.urlopen(url) # 读取网页源码内容 data = r
python做网页爬虫需要注意的问题
为了网站的性能和保证正常用户对网站的访问,很多网站都对来自客户端非正常的访问进行了屏蔽。 爬虫由于是自动运行,很容易访问过快过多甚至造成DDOS攻击。 第一步:首先你得爬虫要伪装成一个正常的用户,比如设置reffer、cookie、browser client、token等信息,这些通过分析HTTP包可以进行分析和伪造。 第二步:其次,来自同一个IP的多次访问也会被服务器禁止并将IP
【Python】爬虫爬取各大网站新闻(一)
作者博客地址:http://andyheart.mePython爬虫一步一步爬取文章背景最近在学习机器学习算法,分为回归,分类,聚类等,在学习过程中苦于没有数据做练习,就想爬取一下国内各大网站的新闻,通过训练,然后对以后的新闻做一个分类预测。在这样的背景之下,就开始了我的爬虫之路。网站分析国内各大新闻网站汇总(未完待续):搜狐新闻:时政:http://m.sohu.com/cr/32/?page=2