圆圆一直在修炼 2013-11-12 17:51 采纳率: 100%
浏览 3100
已采纳

请问为什么我用Nutch爬取不到百度百科和百度文库里面的内容?

经过设置我只能获取到百度百科和百度文库首页的一些页面,可是我想爬取这两个网站内部的页面,请问该如何配置?有没有人有成功的先例?
比如如果想要爬取百度文库里面的页面crawl-urlfilter.txt里面的正则表达式改如何编写?
多谢指教!

  • 写回答

1条回答 默认 最新

  • abcdwxc 2014-09-19 02:33
    关注

    nutch1.2在crawl-urlfilter.txt设置站点,1.2以上的版本要在regex-urlfilter.txt中配置。
    具体是在accept hosts in MY.DOMAIN.NAME下设置要爬取的站点.
    例如:

    accept hosts in MY.DOMAIN.NAME

    +^http://([a-z0-9]*.)*baidu.com/

    在nutch目录下建个urls文件夹,里面建个baidu.txt文件,里面把要爬取的Url放进去。
    http://wenku.baidu.com/
    然后运行 bin/nutch crawl urls/baidu.txt -dir baidu/wenku -threads 4 -depth 2 -topN 30

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

悬赏问题

  • ¥20 关于#windows#的问题,请各位专家解答!(相关搜索:服务器)
  • ¥30 使用C++实现ATM系统
  • ¥20 求帮,直连能连上oracle12,但是thinkphp6就是报错
  • ¥15 paddleocr运行报错
  • ¥15 怎么用 matlab 设计滞后-超前串联校正网络
  • ¥15 MFC引用C#生成的dll,将dll放置到非exe程序目录,如何操作
  • ¥15 C#创建webservice接口,三方通过多次跳转访问本方服务,获取wsdl文档,wsdl中ip地址为局域网内本机地址而非三方直接访问的地址。
  • ¥15 关于#wireshark#的问题:需要安卓app流量数据集要安卓流量做包序列长度的实验,比如某些流量是在看视频还是在发评论
  • ¥15 Smail语句如何使用判断语句跳过验证卡密界面
  • ¥15 关于#wireshark#的问题:并且能够给数据做标注,如这个流量是在看视频或者是在转账