iteye_17256 2009-04-27 21:40
浏览 215
已采纳

javaeye的防爬虫功能,好强

import urllib2

req = urllib2.Request('http://www.baidu.com')
fd = urllib2.urlopen(req)
while True:
    data = fd.read(1024)
    print '%s' % data
    if not len(data):
        break
    

 初学Python,代码如上,原本想法是把javaeye的页面内容抓取下来存到一个文本里,但是抓取下来的信息竟然是:
       您可能使用了网络爬虫抓取JavaEye网站页面!
    JavaEye网站不允许您使用网络爬虫对JavaEye进行恶意的网页抓取,请您立刻停止该抓取行为!

 

问题1:robbin老大的这一功能是怎么实现的?及其的好奇中。。。

问题2:有没有其他办法进行抓取呢?像google、baidu他们抓javaeye的帖子可是抓得不亦乐乎呀。


问题补充
phyeas 写道
设置User-Agent

小弟菜鸟一名,麻烦老哥能说的在详细一点吗?
  • 写回答

3条回答 默认 最新

  • phyeas 2009-04-27 21:40
    关注

    在read之前加一行:request.add_header('User-Agent', "wangtong40")

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

悬赏问题

  • ¥15 WPF 大屏看板表格背景图片设置
  • ¥15 这个主板怎么能扩出一两个sata口
  • ¥15 不是,这到底错哪儿了😭
  • ¥15 2020长安杯与连接网探
  • ¥15 关于#matlab#的问题:在模糊控制器中选出线路信息,在simulink中根据线路信息生成速度时间目标曲线(初速度为20m/s,15秒后减为0的速度时间图像)我想问线路信息是什么
  • ¥15 banner广告展示设置多少时间不怎么会消耗用户价值
  • ¥16 mybatis的代理对象无法通过@Autowired装填
  • ¥15 可见光定位matlab仿真
  • ¥15 arduino 四自由度机械臂
  • ¥15 wordpress 产品图片 GIF 没法显示