nutch自定义要抓取内容

刚接触nutch，环境是VirtualBox虚拟机安装centos6.5 64位 ,在CentOS下使用svn从官网检出nutch 2.3 。初步的需求就是，根据我自定义的url,通过输入某些关键词(或html标签、或者正则表达式)，来把匹配的网页内容抓取下来。后续再进行分析(后话)
我还在学习中，发现nutch2.3版本中，已经用bin/crawl命令取代了老版本的 bin/nutch crawl ,参数列表几乎完全都变了.
我尝试了如下操作：
这是2.3版本的命令参数: bin/crawl
Usage: crawl []

然后我使用：bin/crawl urls/ MyFirstCrawl http://localhost:8080/solr 6 其中：
urls：是我建立的抓取文件所在的上级目录(结构:urls/urls.txt,urls.txt中存了要抓取的页面url)
MyFirstCrawl:自定义的crawl名称
solrUrl:这个地址是随便填写的
然后如下错误：
/home/release-2.3/runtime/local/bin/nutch generate -D mapred.reduce.tasks=2 -D mapred.child.java.opts=-Xmx1000m -D mapred.reduce.tasks.speculative.execution=false -D mapred.map.tasks.speculative.execution=false -D mapred.compress.map.output=true -topN 50000 -noNorm -noFilter -adddays 0 -crawlId MyFirstCrawl -batchId 1455677914-18990
GeneratorJob: starting at 2016-02-17 10:58:35
GeneratorJob: Selecting best-scoring urls due for fetch.
GeneratorJob: starting
GeneratorJob: filtering: false
GeneratorJob: normalizing: false
GeneratorJob: topN: 50000
java.util.NoSuchElementException
at java.util.TreeMap.key(TreeMap.java:1221)
at java.util.TreeMap.firstKey(TreeMap.java:285)
at org.apache.gora.memory.store.MemStore.execute(MemStore.java:125)
at org.apache.gora.query.impl.QueryBase.execute(QueryBase.java:73)
at org.apache.gora.mapreduce.GoraRecordReader.executeQuery(GoraRecordReader.java:68)
at org.apache.gora.mapreduce.GoraRecordReader.nextKeyValue(GoraRecordReader.java:110)
at org.apache.hadoop.mapred.MapTask$NewTrackingRecordReader.nextKeyValue(MapTask.java:531)
at org.apache.hadoop.mapreduce.MapContext.nextKeyValue(MapContext.java:67)
at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:144)
at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:764)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:364)
at org.apache.hadoop.mapred.LocalJobRunner$Job$MapTaskRunnable.run(LocalJobRunner.java:223)
at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)
at java.util.concurrent.FutureTask.run(FutureTask.java:262)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
at java.lang.Thread.run(Thread.java:745)
GeneratorJob: finished at 2016-02-17 10:58:38, time elapsed: 00:00:02
GeneratorJob: generated batch id: 1455677914-18990 containing 0 URLs
Generate returned 1 (no new segments created)
Escaping loop: no more URLs to fetch now

请问这个错误代表什么？我该怎么样调整。
另外，如果想要完成我开头说的抓取需求我该做怎样的配置才能实现？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2016-02-18 15:11
关注
http://bbs.csdn.net/topics/391903446

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

无法使用php exec函数执行nutch crawl命令 php
2019-04-12 12:47

回答 1 已采纳 In order to run Nutch you need the JAVA_HOME environment variable set and pointing to the proper p
nutch的实用配置及具体使用
2014-12-07 15:41

回答 1 已采纳 nutch这款软件确实好友许多不足之处需要跟进，持续时间能长点更好.
Nutch项目编译找不到依赖包 java 搜索引擎
2023-03-17 15:37

回答 3 已采纳谢谢各位，已经解决问题了
走进 Apache Nutch (v1.14)
2018-08-16 09:55

devalone的博客 Apache Nutch Apache Nutch 起源于 Apache Lucene 项目，是高可扩展性和高可伸缩性的开源 web 爬虫软件项目。项目主页： http://nutch.apache.org/ 出于底层数据存储多样性的设计，目前该项目在两个代码分支...
求一份配置完整简单优化过的nutch
2015-01-11 16:46

回答 2 已采纳建议多进程，多台计算机跑，加快速度，也可能和你的单IP有关
nutch 代理本地ip与代理ip之间转换
2015-01-10 16:04

回答 1 已采纳 [http://fuliang.iteye.com/blog/148999]( "")
nutch TopN 50万 depth 10 获取到6万多数据
2015-01-08 04:01

回答 2 已采纳网站发现你爬虫，ban了你的请求
探秘Nutch：揭秘开源搜索引擎的工作原理与无限应用可能（一）
2024-03-11 23:17

凛鼕将至的博客 Nutch是一个开源的Web搜索引擎，它的起源可以追溯到2002年。最初，Nutch是由美国加州大学伯克利分校的Doug Cutting开发的一个研究项目。Doug Cutting是一个知名的开源软件开发者，他后来还负责开发了Apache Hadoop。...
请问为什么我用Nutch爬取不到百度百科和百度文库里面的内容？正则表达式爬虫百度
2013-11-12 17:51

回答 1 已采纳 nutch1.2在crawl-urlfilter.txt设置站点，1.2以上的版本要在regex-urlfilter.txt中配置。具体是在accept hosts in MY.DOMAIN.NA
Java_爬虫，如何抓取Js动态生成数据的页面？ java 爬虫
2014-07-25 17:44

回答 5 已采纳我之前也遇到过这个问题，网上说法很多，不过觉得都没有解决问题，后来相过有什么功能可以获取请求某一个url地址时所附带请求的其他链接地址，但是这个好像说是用抓包可以实现，不过我没实现只能采用最原
如何实现从购书网址抓取页面、再获取里面的图书信息，实现这个功能有什么比较好用的工具或者软件吗？
2015-02-19 02:28

回答 2 已采纳 //try python //import scrapy module //http://scrapy.org //import re module //good luck
Gecco定时抓取慕课网实战课入门
2021-01-31 21:20

往復不息的博客 Gecco定时抓取慕课网实战课入门一、Gecco是什么 Gecco是一款用java语言开发的轻量化的易用的网络爬虫，不同于Nutch这样的面向搜索引擎的通用爬虫，Gecco是面向主题的爬虫。通用爬虫一般关注三个主要的问题：下载...
关于#solr#的问题：在将nutch爬到的数据提交给solr时发生了错误：java.io.IOException:Job failed apache java solr
2023-03-22 09:16

回答 1 已采纳方法一：重新安装Cygwin，换一个国外的映像，（163的映像是汉化版的）方法二： Cygwin Shell里边直接set LANG=en_US是没作用的，好像cygwin shell不支持set
Hadoop——快速入门
2022-04-03 10:57

m0_67401382的博客大数据不得不提到最有用的利器Hadoop，本文最快的方式让你上手Hadoop，...HADOOP提供的功能：利用服务器集群，根据用户的自定义业务逻辑，对海量数据进行分布式处理 HADOOP的核心组件有 HDFS（分布式文件系统） YAR
Java 框架、库和软件的精选列表(Awesome Java)
2022-03-27 19:12

白羊沈歌的博客 JCommander - 具有自定义类型和通过实现接口验证的命令行参数解析框架。 jbock - 无反射命令行解析器。 Jexer - 高级控制台（和 Swing）文本用户界面 (TUI) 库，具有鼠标可拖动窗口、内置终端窗口管理器和 Sixel ...
Hadoop的产生背景
2022-04-18 13:07

暮晓引流软件的博客 Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。 2003年谷歌发表了三篇论文： GFS...
Hadoop01【介绍】，java工程师面试简历模板
2021-11-15 10:02

Java极客1024的博客 HADOOP是apache旗下的一套开源软件平台,HADOOP提供的功能：利用服务器集群，根据用户的自定义业务逻辑，对海量数据进行分布式处理 HADOOP的核心组件有: HDFS（分布式文件系统） YARN（运算资源调度系统） ...
爬虫与反爬虫技术简介
2022-09-20 16:48

AudiA6LV6的博客爬虫分为通用爬虫和聚焦爬虫两大类，前者的目标是在保持一定内容质量的情况下爬取尽可能多的站点，比如百度这样的搜索引擎就是这种类型的爬虫，如图 1 是通用搜索引擎的基础架构：首先在互联网中选出一部分网页，以...
爬虫入门
2018-08-31 14:25

码类人生的博客 Nutch支持分布式抓取，并有Hadoop支持，可以进行多机分布抓取，存储和索引。另外很吸引人的一点在于，它提供了一种插件框架，使得其对各种网页内容的解析、各种数据的采集、查询、集群、过滤等功能能够方便的进行...
史上最全的大数据学习资源(Awesome Big Data)
2019-09-25 23:13

过往记忆的博客 - Go 语言的一个快速，可嵌入，基于内存的键/值数据库，支持自定义索引和地理空间。 Edis - 协议兼容 Redis 的数据库，可替代 Redis。 ElephantDB - 专门用于从 Hadoop 导出数据的分布式数据库。 ...
没有解决我的问题, 去提问

悬赏问题

¥15 请教：如何用postman调用本地虚拟机区块链接上的合约？
¥15 为什么使用javacv转封装rtsp为rtmp时出现如下问题：[h264 @ 000000004faf7500]no frame？
¥15 乘性高斯噪声在深度学习网络中的应用
¥15 运筹学排序问题中的在线排序
¥15 关于docker部署flink集成hadoop的yarn，请教个问题 flink启动yarn-session.sh连不上hadoop，这个整了好几天一直不行，求帮忙看一下怎么解决
¥15 深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集
¥15 C++ 头文件/宏冲突问题解决
¥15 用comsol模拟大气湍流通过底部加热（温度不同）的腔体
¥50 安卓adb backup备份子用户应用数据失败
¥20 有人能用聚类分析帮我分析一下文本内容嘛