nutch TopN 50万 depth 10 获取到6万多数据

我用nutch1.9搜索阿里巴巴的网站，使用的是bin/crawl 脚本执行的，topN设置的50万，爬行深度设置的10，url过滤只允许阿里巴巴的网站，但是实际搜出来的结果却只有6万多，又人知道大概是什么原因吗困扰了好几天了。。。。。求教

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2015-01-08 14:51
关注
网站发现你爬虫，ban了你的请求

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

nutch 抓取流程解析
2017-03-03 18:20

柱子89的博客本次笔记主要对抓取的过程进行说明。首先这里简要列下抓取命令常用参数：参数： ...-topN N 决定在每一深度将会被取回的网页的最大数目。我们之前的抓取命令中：nohup ./bin/nutch
nutch+tomcat安装详细教程
2016-04-02 19:02

weixin_34217711的博客 [nutch@Nutch nutch]$ bin/nutch crawl /server/urls -dir /server/crawl.demo -depth 2 -threads 4 -topN 50 >& /server/crawl.demo/crawl.log 如果报Error: JAVA_HOME is not set可在shell中用nutch执行一次export...
《Nutch0.9入门使用指南》——配置与发布篇
2012-03-06 16:55

AngelRobot的博客前言：msn空间丢失以及csdn空间丢失，导致很多以前写的文档都不见了~~幸好搜索到了，贴回来留念~~2007年的记忆：） part1:简单配置与发布注：本文为个人学习后之总结，如有错误和不足，还望各位高手提醒补充...
Nutch学习笔记二——抓取过程简析
2014-01-11 18:19

weixin_30249203的博客在上篇学习笔记中...笔记中通过配置抓取地址http://blog.tianya.cn 并执行抓取命令 nohup ./bin/nutch crawl urls -dir data -threads 100 -depth 3 & 进行...
转：Nutch学习笔记--抓取过程简析
2015-10-05 09:37

绝地反击T的博客在上篇学习笔记中http://www.cnblogs.com/huligong1234/p/3464371.html 主要记录Nutch安装及简单运行的过程...并执行抓取命令 nohup ./bin/nutch crawl urls -dir data -threads 100 -depth 3 & 进行了抓取。本次笔
linux下搭建nutch-1.3
2012-01-02 15:56

chlstar的博客我的安装环境Red Hat Enterprise Linux5，jdk6，tomcat6。 1. 环境需求 1.1 Sun JDK 1.5 or 更高版本，设置NUTCH_JAVA_HOME为您的JVM安装的根。 1.2 Apache’s Tomcat 5.x or 更高版本。 1.3 1Gb的硬盘...
nutch 初体验-入门篇
2011-06-08 16:32

小雨转晴的博客 System: Ubuntu 9.04JDK:1.6Tomcat:6.0.29Nutch:1.2 1, 安装JDK 我用的是绿色版，配置比较方便。放到自己的工作目录，然后就是配置环境变量（和windows很类似。） 1）执行命令 vi /etc/profile 2) 添加如下...
nutch学习、、孤剑之家宝剑锋从磨砺出，梅花香自苦寒来。我欲仗剑走天涯。博客园首页新随笔联系订阅订阅管理随笔 - 771 文章 - 8 评论 - 13
2015-07-27 16:44

对java有感觉的博客通过及时查看hadoop.log文件你便会发现很多问题（如下图之一）与MySQL支持的数据类型、数据长度有关，只需要根据日志提示做修改、调试（可借助navicat工具像SQL Server方便操作数据库），然后再重复自动生成过程，...
没有解决我的问题, 去提问

nutch TopN 50万 depth 10 获取到6万多数据

2条回答 默认 最新

2条回答默认最新