2 djy572568633 djy572568633 于 2013.11.13 01:51 提问

请问为什么我用Nutch爬取不到百度百科和百度文库里面的内容?

经过设置我只能获取到百度百科和百度文库首页的一些页面,可是我想爬取这两个网站内部的页面,请问该如何配置?有没有人有成功的先例?
比如如果想要爬取百度文库里面的页面crawl-urlfilter.txt里面的正则表达式改如何编写?
多谢指教!

1个回答

abcdwxc
abcdwxc   2014.09.19 10:33
已采纳

nutch1.2在crawl-urlfilter.txt设置站点,1.2以上的版本要在regex-urlfilter.txt中配置。
具体是在accept hosts in MY.DOMAIN.NAME下设置要爬取的站点.
例如:

accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*.)*baidu.com/

在nutch目录下建个urls文件夹,里面建个baidu.txt文件,里面把要爬取的Url放进去。
http://wenku.baidu.com/
然后运行 bin/nutch crawl urls/baidu.txt -dir baidu/wenku -threads 4 -depth 2 -topN 30

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!