nutch 全部 | 未解决 | 已解决
2019.04.12 12:47来自 donglu9898

[已解决] 无法使用php exec函数执行nutch crawl命令

<div class="post-text" itemprop="text"> <p>I have to run Nutch crawl commands using php exec but it show...
1

回答

2015.02.19 02:28来自 baidu_20035513

[已解决] 如何实现从购书网址抓取页面、再获取里面的图书信息,实现这个功能有什么比较好用的工具或者软件吗?

我期望能实现一个互联网信息收集的功能,如从购书网址抓取页面、再获取里面的图书信息,实现这个功能有什么比较好用的工具或者软件吗?
2

回答

2015.01.11 16:46来自 neverSmil

[已解决] 求一份配置完整简单优化过的nutch

求一份配置完整简单优化过的nutch。自己弄了一个多月了,但是还是爬取不到太多数据, 爬了10多个小时,却只有5万多条数据,所以想找各位大神要一份配置好的可行的nutch(我暂时还没有配hadoop集群,想单机跑)...
2

回答

2015.01.10 16:04来自 neverSmil

[已解决] nutch 代理 本地ip与代理ip之间转换

我用的是Nutch1.9版本的,在爬去网站过程中好像因为同一ip访问频繁然后ip被封了,正在尝试用代理,但是如果代理ip被封了的话,nutch会使用本机的ip继续进行爬去吗?然后等本机ip被封的时候又转代理ip进行...
1

回答

2015.01.08 04:01来自 neverSmil

[已解决] nutch TopN 50万 depth 10 获取到6万多数据

我用nutch1.9搜索阿里巴巴的网站,使用的是bin/crawl 脚本执行的,topN设置的50万,爬行深度设置的10,url过滤只允许阿里巴巴的网站,但是实际搜出来的结果却只有6万多,又人知道大概是什么原因吗困...
2

回答

2014.12.07 15:41来自 neverSmil

[已解决] nutch的实用配置及具体使用

因为nutch每次搜索完成之后就会结束进程,所以具体使用时是不是应该写个定时脚本来执行!还有假设我要是想抓取网易的新闻信息的话需要注意配置哪些东西啊,我自己测试了下,感觉每次都抓取不到太多数据,总共都只抓得到5000多条
1

回答

2014.07.25 17:44来自 Metro2033

[已解决] Java_爬虫,如何抓取Js动态生成数据的页面?

<div class="iteye-blog-content-contain" style="font-size: 14px;"> <p> </p> <p> </p> <p> </p> <p>很多网站是用j...
0

回答

2013.11.12 17:51来自 圆圆一直在修炼

[已解决] 请问为什么我用Nutch爬取不到百度百科和百度文库里面的内容?

经过设置我只能获取到百度百科和百度文库首页的一些页面,可是我想爬取这两个网站内部的页面,请问该如何配置?有没有人有成功的先例? 比如如果想要爬取百度文库里面的页面crawl-urlfilter.txt里面的...
1

回答