nutch TopN 50万 depth 10 获取到6万多数据

我用nutch1.9搜索阿里巴巴的网站，使用的是bin/crawl 脚本执行的，topN设置的50万，爬行深度设置的10，url过滤只允许阿里巴巴的网站，但是实际搜出来的结果却只有6万多，又人知道大概是什么原因吗困扰了好几天了。。。。。求教

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2015-01-08 14:51
关注
网站发现你爬虫，ban了你的请求

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

nutch TopN 50万 depth 10 获取到6万多数据
2015-01-08 04:01

回答 2 已采纳网站发现你爬虫，ban了你的请求
Nutch项目编译找不到依赖包 java 搜索引擎
2023-03-17 15:37

回答 3 已采纳谢谢各位，已经解决问题了
关于#solr#的问题：在将nutch爬到的数据提交给solr时发生了错误：java.io.IOException:Job failed apache java solr
2023-03-22 09:16

回答 1 已采纳方法一：重新安装Cygwin，换一个国外的映像，（163的映像是汉化版的）方法二： Cygwin Shell里边直接set LANG=en_US是没作用的，好像cygwin shell不支持set
nutch
2021-03-26 13:58

现在退休的Nutch 2.x分支在一个关键方面不同于1.x：通过使用Apache Gora处理对象到持久映射以及存储获取时间，状态，内容和已解析的文本，将存储从任何特定的基础数据存储中抽象出来。，外链，内链等到许多NoSQL...
无法使用php exec函数执行nutch crawl命令 php
2019-04-12 12:47

回答 1 已采纳 In order to run Nutch you need the JAVA_HOME environment variable set and pointing to the proper p
求一份配置完整简单优化过的nutch
2015-01-11 16:46

回答 2 已采纳建议多进程，多台计算机跑，加快速度，也可能和你的单IP有关
请问为什么我用Nutch爬取不到百度百科和百度文库里面的内容？正则表达式爬虫百度
2013-11-12 17:51

回答 1 已采纳 nutch1.2在crawl-urlfilter.txt设置站点，1.2以上的版本要在regex-urlfilter.txt中配置。具体是在accept hosts in MY.DOMAIN.NA
nutch搜索引擎数据获取
2011-07-01 14:58

Nutch搜索引擎数据获取1、基本原理2、网络蜘蛛3、局域网抓取
nutch的实用配置及具体使用
2014-12-07 15:41

回答 1 已采纳 nutch这款软件确实好友许多不足之处需要跟进，持续时间能长点更好.
nutch 代理本地ip与代理ip之间转换
2015-01-10 16:04

回答 1 已采纳 [http://fuliang.iteye.com/blog/148999]( "")
Java_爬虫，如何抓取Js动态生成数据的页面？ java 爬虫
2014-07-25 17:44

回答 5 已采纳我之前也遇到过这个问题，网上说法很多，不过觉得都没有解决问题，后来相过有什么功能可以获取请求某一个url地址时所附带请求的其他链接地址，但是这个好像说是用抓包可以实现，不过我没实现只能采用最原
Apache Nutch网络爬虫-其他
2021-06-12 02:42

是Apache旗下的一个用Java实现的开源搜索引擎项目，自Nutch1.2版本之后，Nutch已经从搜索引擎演化为网络爬虫，接着Nutch进一步演化为两大分支版本：1.X和2.X，这两大分支最大的区别在于2.X对底层的数据存储进行了...
如何实现从购书网址抓取页面、再获取里面的图书信息，实现这个功能有什么比较好用的工具或者软件吗？
2015-02-19 02:28

回答 2 已采纳 //try python //import scrapy module //http://scrapy.org //import re module //good luck
Apache Nutch源代码
2021-03-15 16:16

Nutch的创始人是Doug Cutting，他同时也... Nutch诞生于2002年8月，是Apache旗下的一个用Java实现的开源搜索引擎项目，自Nutch1.2版本之后，Nutch已经从搜索引擎演化为网络爬虫，接着Nutch进一步演化为两大分支版本：1.
nutch-ajax:适用于AJAX的Apache Nutch插件页面获取，解析，索引
2021-05-13 12:22

Nutch AJAX page Fetch, Parse, Index Plugin项目简介基于Apache Nutch 2.3和Htmlunit, Selenium WebDriver等组件扩展，实现对于AJAX加载类型页面的完整页面内容抓取，以及特定数据项的解析和索引。According to the...
nutch-analysis.rar_nutch
2022-09-23 11:11

开源搜索引擎nutch的爬虫部分分析。包括Nutch数据集的基本组成和流程。
nutch1.8最新版2014.6.10part2
2014-06-10 09:29

nutch1.8最新版2014.6.10part2
Nutch的详细架构图
2023-09-23 22:16

Nutch的详细架构图
nutch_recrawl_mergecrawl.rar_nutch_nutch recrawl_recrawl
2022-09-20 14:23

nutch一款开源搜索引擎，recrawl是实现索引更新的脚本 mergecrawl是合并多个网站查询的bash脚本。
Nutch的架构图.png
2023-09-23 22:15

Nutch的架构图
没有解决我的问题, 去提问

悬赏问题

¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！
¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？

nutch TopN 50万 depth 10 获取到6万多数据

2条回答 默认 最新

悬赏问题

2条回答默认最新