javaeye的防爬虫功能，好强

import urllib2

req = urllib2.Request('http://www.baidu.com')
fd = urllib2.urlopen(req)
while True:
    data = fd.read(1024)
    print '%s' % data
    if not len(data):
        break

初学Python，代码如上，原本想法是把javaeye的页面内容抓取下来存到一个文本里，但是抓取下来的信息竟然是：
您可能使用了网络爬虫抓取JavaEye网站页面！
JavaEye网站不允许您使用网络爬虫对JavaEye进行恶意的网页抓取，请您立刻停止该抓取行为！

问题1：robbin老大的这一功能是怎么实现的？及其的好奇中。。。

问题2：有没有其他办法进行抓取呢？像google、baidu他们抓javaeye的帖子可是抓得不亦乐乎呀。

问题补充

phyeas 写道

设置User-Agent

小弟菜鸟一名，麻烦老哥能说的在详细一点吗？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
phyeas 2009-04-27 21:40
关注
在read之前加一行:request.add_header('User-Agent', "wangtong40")

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

深入剖析Python的爬虫框架Scrapy的结构与运作流程
2020-12-24 00:11

网络爬虫（Web Crawler, Spider）就是一个在网络上乱爬的机器人。当然它通常并不是一个实体的机器人，因为网络本身也是...除此之外，还有一些定制的爬虫，专门针对某一个网站，例如前一阵子 JavaEye 的 Robbin 就写了几
开源python爬虫软件下载_33款可用来抓数据的开源爬虫软件工具
2020-12-01 16:51

?? 1的博客爬虫，即网络爬虫，是一种自动获取网页内容的程序。是搜索引擎的重要组成部分，因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索...
java中反爬虫_反网络爬虫策略（转自Javaeye）
2021-03-15 00:26

向往真善美吧的博客搜索引擎(Search Engine)，例如传统的通用搜索引 ...]爬虫有好处也有坏处：威胁主要是流量方面，包括爬虫的访问以及搜索引擎被使用带来的实际用户访问。对网站有好有坏，不好的地方会增加网站的访问负荷；好的地方也...
如何学习python
2016-05-05 14:31

- **Python标准库**：详细介绍Python的标准库功能，是学习高级技巧的重要资源。 - **Python编程指南 Django Book中文版**：针对使用Django框架进行Web开发的读者。 #### 二、实践是最好的老师理论学习只是开始，...
如何自学-Python(干货合集).pdf
2023-03-22 19:58

* 交流，参与各种论坛上的Python讨论，例如Python Group、CU、JavaEye等。推荐资源 * 《A Byte of Python》：简明Python教程，边看边练习就对Python有基本的了解。 * 《Google's Python Lessons》：Google出品的...
从网络上收集的爬虫工具，推荐基于python的工具
2016-05-20 10:44

上海菁数信息——实时数字智能的博客爬虫，即网络爬虫，是一种自动获取网页内容的程序。是搜索引擎的重要组成部分，因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是...
JavaEye博文JavaEye博文JavaEye博文
2011-08-07 13:09

"JavaEye博文" 本资源摘要信息来自JavaEye博文，作者cutesunshineriver，发布于2010年。该博文涵盖了软件开发、编程、项目管理等多方面的知识点。在本博文中，我们可以看到多个与软件开发相关的知识点，包括： 1...
如何自学-Python(干货合集).docx
2022-06-12 11:15

同时，参与Python相关的论坛和社区，如CU、JavaEye或Google Group，可以与其他开发者互动，共同成长。总的来说，学习Python需要耐心和毅力，但通过挑选适合自己的教材、动手实践、利用网络资源和与他人交流，你将...
JavaEye新闻月刊_-_2009年3月_-_总第13期
2017-06-20 17:30

同时，其他编程语言如Python、Scala的社区动态也有提及，例如Python获得Linux New Media的最佳开源编程语言奖。移动开发方面，索尼爱立信的Android概念机、新款iPhone的细节泄露、黑莓在线商店的上线以及魅族M8...
测试JavaEye的PDF生成效果
2019-05-28 01:21

JavaEye可能是一个用于Java平台的开源库，它提供了将数据转换为PDF格式的功能，这对于创建报告、手册或其他需要打印或在线阅读的文档非常有用。在描述中提到的“博文链接”，虽然没有具体内容，但暗示了可能有更详细...
JavaEye的API使用帮助.rar
2019-07-09 09:14

JavaEye API是为Java开发者设计的一套接口，提供了丰富的功能，包括但不限于数据库操作、缓存管理、安全管理、视图渲染等。这些API简化了开发流程，提高了开发效率，并且通常具有良好的可扩展性和灵活性。 2. **...
网站反爬虫和DOS攻击的利器 limiter.zip
2019-07-19 05:27

早年的JavaEye网站曾经深受DOS攻击和爬虫海量抓取造成的负载过高的困扰，项目作者曾经和这个问题进行了为期几年不懈的斗争，并且在总结几年斗争经验后写了一篇总结性博客文章：互联网网站的反爬虫策略浅析。...
隔壁老王都找我要的33款开源爬虫框架，《记得收藏哦！不然看着看着就不见了》_webarchive爬虫
2024-05-02 16:08

2401_84140569的博客一般实现定题爬虫，或者是聚焦爬虫，做综合搜索引擎不容易成功，而垂直搜诉或者比价服务或者推荐引擎，相对容易很多，这类爬虫不是什么页面都取的，而是只取你关系的页面，而且只取页面上关心的内容，例如提取黄页...
JavaEye+技术架构
2012-01-31 12:44

JavaEye+技术架构,讲述java框架的应用
python中trunc函数_trunc函数
2021-01-29 04:38

亲爱的达布幽的博客文章技术小阿哥 2017-11-27 716浏览量 python 地板除法(floor)和截断除法(trunc) math.floor() & math.trunc() math.floor 和 math.trunc的官方不同版本的介绍如下： math.floor: python2.7: Return the floor of ...
麦库客户端模仿javaeye插入代码高亮插件
2011-12-26 11:43

这个标题表明我们要讨论的是一个针对麦库（Maiku）客户端的修改或增强，它借鉴了JavaEye网站的代码高亮显示功能。JavaEye是一个知名的中国IT社区，其代码高亮功能在编程交流中非常有用，能够使得代码更加清晰易读。...
javaeye被黑
2009-04-21 09:40

javaeye被黑大家看看
javaeye android client
2011-04-08 16:01

经过2个半星期的努力… lordhong和mqqqvpppm, 轩[kop]一起开发了JavaEye的android客户端alpha版本. 当前版本包括闲聊, 站内短信, 和收藏. 功能安装当前API上的描述来开发
2024年最全建议收藏，7个国内「小众」的程序员社区_码农社区，2024年最新Python面试经历
2024-05-04 19:10

2301_76190672的博客为了帮助大家更好的学习Python，小编给大家准备了一份Python学习资料，里面的内容都是适合零基础小白的笔记和资料，不懂编程也能听懂、看懂，需要获取方式：扫描下方即可获取。CSDN大礼包：《Python零基础入门&进阶...
python中的引号用法总结_Python中的引号用法总结
2021-03-17 19:16

蒋大钳的博客 Python中的引号：1.表示多行注释--一对三个单引号或双引号表示多行注释#-*-coding :utf-8-*- #防止乱码，方便在程序中添加中文，把编码统一成UTF-8from selenium import webdriver #导入Selenium的Webdriver包#导入...
没有解决我的问题, 去提问

javaeye的防爬虫功能，好强

3条回答 默认 最新

3条回答默认最新