2 u013056743 u013056743 于 2014.11.12 22:16 提问

在python爬虫爬网站的时候返回Access denied怎么办

#coding=utf-8
import urllib
import re

def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
html = getHtml("http://www.xxx.com/ ")
f = file('html.txt','w')
f.write(html)
f.close()

返回的Access denied。。查了以下是浏览器不被支持。但是在爬虫下要怎么写?

3个回答

save4me
save4me   Ds   Rxr 2014.11.19 13:09

浏览器不被支持,那什么设备可以访问?可以试一下修改User-Agent头文件。如果还是不行,尝试抓取可以访问的时候的请求文件头,包括cookie等,然后模拟抓取应该就可以了。

oyljerry
oyljerry   Ds   Rxr 2014.12.04 16:29

应该是你请求被网站认出来是爬虫或不可接受呃,所以被access deny了
可以抓包分析一下,然后再爬虫填好对应的字段数据

save4me
save4me   Ds   Rxr 2014.12.18 10:41

上面的答案有帮助吗?如果还有问题,请提出来,如果对答案满意,请顶一下,并标记为采纳答案,谢谢!

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!