圆圆一直在修炼
2013-11-12 17:51
采纳率: 100%
浏览 3.1k

请问为什么我用Nutch爬取不到百度百科和百度文库里面的内容?

经过设置我只能获取到百度百科和百度文库首页的一些页面,可是我想爬取这两个网站内部的页面,请问该如何配置?有没有人有成功的先例?
比如如果想要爬取百度文库里面的页面crawl-urlfilter.txt里面的正则表达式改如何编写?
多谢指教!

1条回答 默认 最新

相关推荐 更多相似问题