经过设置我只能获取到百度百科和百度文库首页的一些页面,可是我想爬取这两个网站内部的页面,请问该如何配置?有没有人有成功的先例?
比如如果想要爬取百度文库里面的页面crawl-urlfilter.txt里面的正则表达式改如何编写?
多谢指教!
请问为什么我用Nutch爬取不到百度百科和百度文库里面的内容?
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
1条回答 默认 最新
- abcdwxc 2014-09-19 02:33关注
nutch1.2在crawl-urlfilter.txt设置站点,1.2以上的版本要在regex-urlfilter.txt中配置。
具体是在accept hosts in MY.DOMAIN.NAME下设置要爬取的站点.
例如:accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*.)*baidu.com/
在nutch目录下建个urls文件夹,里面建个baidu.txt文件,里面把要爬取的Url放进去。
http://wenku.baidu.com/
然后运行 bin/nutch crawl urls/baidu.txt -dir baidu/wenku -threads 4 -depth 2 -topN 30本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报
悬赏问题
- ¥15 微信小程序协议怎么写
- ¥15 c语言怎么用printf(“\b \b”)与getch()实现黑框里写入与删除?
- ¥20 怎么用dlib库的算法识别小麦病虫害
- ¥15 华为ensp模拟器中S5700交换机在配置过程中老是反复重启
- ¥15 java写代码遇到问题,求帮助
- ¥15 uniapp uview http 如何实现统一的请求异常信息提示?
- ¥15 有了解d3和topogram.js库的吗?有偿请教
- ¥100 任意维数的K均值聚类
- ¥15 stamps做sbas-insar,时序沉降图怎么画
- ¥15 买了个传感器,根据商家发的代码和步骤使用但是代码报错了不会改,有没有人可以看看