import urllib2 req = urllib2.Request('http://www.baidu.com') fd = urllib2.urlopen(req) while True: data = fd.read(1024) print '%s' % data if not len(data): break
初学Python,代码如上,原本想法是把javaeye的页面内容抓取下来存到一个文本里,但是抓取下来的信息竟然是:
您可能使用了网络爬虫抓取JavaEye网站页面!
JavaEye网站不允许您使用网络爬虫对JavaEye进行恶意的网页抓取,请您立刻停止该抓取行为!
问题1:robbin老大的这一功能是怎么实现的?及其的好奇中。。。
问题2:有没有其他办法进行抓取呢?像google、baidu他们抓javaeye的帖子可是抓得不亦乐乎呀。
问题补充
phyeas 写道
设置User-Agent
小弟菜鸟一名,麻烦老哥能说的在详细一点吗?