javaeye不能被蜘蛛抓取

参加学校的srtp，要做个垂直搜索引擎。
用heritrix和自己写的爬虫都不能抓取到javaeye网站的信息。
用heritrix抓取到得镜像文件html提示：
[color=darkred] 您的访问请求被拒绝
您可能使用了网络爬虫抓取JavaEye网站页面！

JavaEye网站不允许您使用网络爬虫对JavaEye进行恶意的网页抓取，请您立刻停止该抓取行为！

如果您的网络爬虫不属于恶意抓取行为，希望JavaEye网站允许你进行网页抓取，请和JavaEye管理员联系，取得授权: webmaster AT javaeye DOT com

如果您确实使用浏览器访问，但是被错误的识别为网络爬虫，请将您浏览器发送的“User Agent”信息告知我们，帮助我们解决错误: webmaster AT javaeye DOT com[/color]

自己是用java.net包写的，没用其他的jar。

怎么解决不能被抓取的问题？网上有说可以假冒百度的蜘蛛或谷歌的蜘蛛。不过怎么设置蜘蛛的名字啊？

[b]问题补充：[/b]
currentUrl = new URL(url);
HttpURLConnection httpcon = (HttpURLConnection) currentUrl.openConnection();
httpcon.connect();
InputStreamReader in = new InputStreamReader(httpcon.getInputStream(),Charset.getCharSet(currentUrl));
BufferedReader buf = new BufferedReader(in);

[color=red]request.addheader('User-Agent', "ymeq")[/color]
上面这句话怎么加？
[b]问题补充：[/b]
这样设置了蜘蛛的名字。但是我试了试还是不能抓取 javaeye的网站。。我设成百度的蜘蛛名字也不行。百度的蜘蛛：baiduspider，httpcon.setRequestProperty("User-Agent", "baiduspider");

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
wanghaolovezlq 2009-07-21 11:16
关注
httpcon.setRequestProperty("User-Agent", "ymeq");

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

JAVAEYE登陆不安全？
2012-04-26 12:17

回答 5 已采纳关于token,牛人已经讲解的太多了你自己可以谷歌我找到这些资料只看了谷歌搜索简介,公司网络太慢了,几分钟过去还没有刷开一个 http://wenku.baidu.com/view/
对 javaeye不爽的地方
2009-01-19 10:40

回答 4 已采纳当你用久了就知道了。也就习惯了。那么你就没那么多感觉了。。。楼主。。。给我分吧。。。
在javaeye博客中不能插入阿里妈妈的广告代码
2008-06-24 16:21

回答 2 已采纳在我的博客->管理我的博客->博客设置中可以进行设置. 可以投放Google AdSense和阿里妈妈的广告. 阿里妈妈只要填第一行的pid就可以投放了. JavaEye上很多人的博
如何使用robots禁止各大搜索引擎爬虫爬取网站
2018-09-27 10:23

weixin_34174105的博客一句话总结：假如此网站禁止爬虫抓取,那么,只要在网站的根目录下,创建一个robots.txt文件 User-agent: *Disallow: /就可以了.. 1、搜索引擎在爬取网站前会做什么？一般来说搜索引擎爬取网站时都会，先读取下...
关于Javaeye的问题模块
2012-06-26 21:47

回答 2 已采纳不能，只能再次回答，进行补充，每个网站都有自己的特色，当然肯定也有不完善的地方，你可以去到论坛建议模块，向他们提意见
关于 JavaEye Android Client 的问题 android
2012-11-13 13:51

回答 2 已采纳找一下FlurryAgent.jar，如果找到的话，加到project的library参照中试试。好像是右键工程名－>"properties"->"java build path"
javaeye.com 目前存在的bug
2010-03-17 16:10

回答 8 已采纳 [quote]恩，所以我觉得最好能够不用cookie机制，因为cookie的话有可以被保存的机制；最好使用url重写能把jsessionid隐藏掉就好了。[/quote] jsessioni
Scrapy抓取框架的介绍
2012-08-29 15:56

uestcyao的博客最近在学Python，同时也在学如何使用python抓取数据，于是就被我发现了这个非常受欢迎的Python抓取框架Scrapy，下面一起学习下Scrapy的架构，便于更好的使用这个工具。一、概述下图显示了Scrapy的大体架构，其中...
javaeye，您可不可以远离乱七八糟的广告
2008-07-28 12:43

回答 7 已采纳支持放广告，毕竟是人家无偿分享他的知识。支持楼上的，如果你觉得有用的时候，可以点击一下那个广告也让人家有点回报，这样人家也非常乐意分享他的知识，而又不用你付钱就能学到很多书上学不到的东西，何乐而不为呢
javaeye可视化编辑器 javascript
2009-10-09 20:42

回答 3 已采纳 javaeye目前用的编辑器是tinymce:[url]http://tinymce.moxiecode.com/[/url]，代码高亮用的是google的SyntaxHighlighter：[u
javaeye的防爬虫功能，好强 python
2009-04-27 21:40

回答 3 已采纳在read之前加一行:request.add_header('User-Agent', "wangtong40")
33款可用来抓数据的开源爬虫软件工具
2015-11-16 15:41

c1782746138的博客要玩大数据，没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。爬虫，即网络爬虫，是一种自动获取网页...传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面
隔壁老王都找我要的33款开源爬虫框架，《记得收藏哦！不然看着看着就不见了》_webarchive爬虫
2024-05-02 16:08

2401_84140569的博客一般实现定题爬虫，或者是聚焦爬虫，做综合搜索引擎不容易成功，而垂直搜诉或者比价服务或者推荐引擎，相对容易很多，这类爬虫不是什么页面都取的，而是只取你关系的页面，而且只取页面上关心的内容，例如提取黄页...
可用来抓数据的开源爬虫软件工具
2017-03-17 08:29

PolarisHuster的博客的网络蜘蛛，它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。怎么使用？首先，确定好你的目标网站以及目标网页（即某一类你想要获取数据的网页，例如网易新闻的...
Nutch 使用入门(一）——准备工作及Intranet抓取
2010-03-26 18:40

iteye_4063的博客 *本人亦初学者，如有不正确的地方请多多指教。谢谢！ **/ 环境要求： 1.JDK1.5 或者更高。 2.Tomcat5.x 或者更高。 3.windows下需要Linux仿真环境Cygwin来提供Shell支持。准备工作： 1.下载安装...
Nutch使用入门
2013-06-02 11:37

3. **执行crawl命令** - 示例命令：`bin/nutch crawl urls -dir javaeye -depth 3 -topN 100 -threads 3`。参数含义分别为：抓取结果目录、抓取深度、每层抓取的URL数量、下载线程数。 **搜索功能：** 1. **部署...
如何避免搜索引擎爬虫产生的流量过大以及搜索引擎设置优化
2014-06-17 20:30

iteye_12411的博客登录到后台的统计才发现，正常的网站浏览产生的流量才1G多，而搜索引擎爬虫（也称蜘蛛：spider等）产生的流量却达14G之多！有图为证：为什么会搜索引擎爬虫会产生这么大的流量，特别是搜狗的爬虫与bspider...
隔壁老王都找我要的33款开源爬虫框架，《记得收藏哦！不然看着看着就不见了》
2021-06-12 19:07

苏州程序大白的博客系统自带了3个例子，分别为baidu.xml抓取百度知道，example.xml抓取我的javaeye的博客，bbs.xml抓取一个采用 discuz论坛的内容。授权协议：MIT 开发语言：Java 操作系统：跨平台特点：通过XML配置文件实现高度可...
nutch核心代码分析——crawl.fetch
2021-11-24 20:33

啊哇哇哇无无无无无无无无无无无的博客 } 从代码可以看出‘，fetch主要实现了 ’1，从segment中读取，将它放入相应的队列中，队列以queueId为分类，而queueId是由协议://ip 组成，在放入队列过程中，如果不存在队列则创建（比如javaeye的所有地址都属于...
开源python爬虫软件下载_33款可用来抓数据的开源爬虫软件工具
2020-12-01 16:51

?? 1的博客要玩大数据，没有数据怎么玩？这里推荐一些33款开源爬虫软件给大家。爬虫，即网络爬虫，是一...传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入...
没有解决我的问题, 去提问

悬赏问题

¥15 做个有关计算的小程序
¥15 MPI读取tif文件无法正常给各进程分配路径
¥15 如何用MATLAB实现以下三个公式（有相互嵌套）
¥30 关于#算法#的问题：运用EViews第九版本进行一系列计量经济学的时间数列数据回归分析预测问题求各位帮我解答一下
¥15 setInterval 页面闪烁，怎么解决
¥15 如何让企业微信机器人实现消息汇总整合
¥50 关于#ui#的问题：做yolov8的ui界面出现的问题
¥15 如何用Python爬取各高校教师公开的教育和工作经历
¥15 TLE9879QXA40 电机驱动
¥20 对于工程问题的非线性数学模型进行线性化

javaeye不能被蜘蛛抓取

3条回答 默认 最新

悬赏问题

3条回答默认最新