请问为什么我用Nutch爬取不到百度百科和百度文库里面的内容？

经过设置我只能获取到百度百科和百度文库首页的一些页面，可是我想爬取这两个网站内部的页面，请问该如何配置？有没有人有成功的先例？
比如如果想要爬取百度文库里面的页面crawl-urlfilter.txt里面的正则表达式改如何编写？
多谢指教！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
abcdwxc 2014-09-19 02:33
关注
nutch1.2在crawl-urlfilter.txt设置站点，1.2以上的版本要在regex-urlfilter.txt中配置。
具体是在accept hosts in MY.DOMAIN.NAME下设置要爬取的站点.
例如：

accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*.)*baidu.com/

在nutch目录下建个urls文件夹，里面建个baidu.txt文件，里面把要爬取的Url放进去。
http://wenku.baidu.com/
然后运行 bin/nutch crawl urls/baidu.txt -dir baidu/wenku -threads 4 -depth 2 -topN 30

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

请问为什么我用Nutch爬取不到百度百科和百度文库里面的内容？正则表达式爬虫百度
2013-11-12 17:51

回答 1 已采纳 nutch1.2在crawl-urlfilter.txt设置站点，1.2以上的版本要在regex-urlfilter.txt中配置。具体是在accept hosts in MY.DOMAIN.NA
Nutch项目编译找不到依赖包 java 搜索引擎
2023-03-17 15:37

回答 3 已采纳谢谢各位，已经解决问题了
无法使用php exec函数执行nutch crawl命令 php
2019-04-12 12:47

回答 1 已采纳 In order to run Nutch you need the JAVA_HOME environment variable set and pointing to the proper p
基于Apache Nutch和Solr的AJAX页面内容爬取与处理设计源码
2024-04-17 05:38

本项目是基于Apache Nutch和Solr开发的AJAX页面内容爬取与处理设计源码，主要使用Java进行开发。项目共包含1064个文件，其中Java源代码文件458个，XML配置文件181个，文本文件81个，HTML页面文件56个，JPG图片文件56...
nutch TopN 50万 depth 10 获取到6万多数据
2015-01-08 04:01

回答 2 已采纳网站发现你爬虫，ban了你的请求
nutch的实用配置及具体使用
2014-12-07 15:41

回答 1 已采纳 nutch这款软件确实好友许多不足之处需要跟进，持续时间能长点更好.
关于#solr#的问题：在将nutch爬到的数据提交给solr时发生了错误：java.io.IOException:Job failed apache java solr
2023-03-22 09:16

回答 1 已采纳方法一：重新安装Cygwin，换一个国外的映像，（163的映像是汉化版的）方法二： Cygwin Shell里边直接set LANG=en_US是没作用的，好像cygwin shell不支持set
nutch网页爬取总结
2013-07-28 15:02

nutch安装指南，nutch教程，nutch网络爬取
求一份配置完整简单优化过的nutch
2015-01-11 16:46

回答 2 已采纳建议多进程，多台计算机跑，加快速度，也可能和你的单IP有关
如何实现从购书网址抓取页面、再获取里面的图书信息，实现这个功能有什么比较好用的工具或者软件吗？
2015-02-19 02:28

回答 2 已采纳 //try python //import scrapy module //http://scrapy.org //import re module //good luck
有人研究nutch吗？
2010-03-16 17:55

回答 1 已采纳如果用的是Eclipse的话 1 下载hadoop的源码，通常是一个压缩文件 *.zip 2 在Eclipse中，点击一个hadoop的类，因为你还没有导入，Eclipse会弹出一个框，你
nutch分布式爬虫单击爬取教程完整版
2020-05-27 22:39

赛赛呀的博客 nutch分布式爬虫单击爬取教程完整版目录一、环境二、安装目录三、爬取网站四、爬取步骤 1. 创建新的虚拟机 2. 配置Nutch （1）安装JDK 2 （2）安装Ant （3）构建nutch编译环境（4）验证Nutch安装 3 . 分步爬取...
nutch 代理本地ip与代理ip之间转换
2015-01-10 16:04

回答 1 已采纳 [http://fuliang.iteye.com/blog/148999]( "")
nutch爬取内容分析和爬取流程命令实现
2015-12-13 22:38

当以乐的博客 1、 nutch的存储文件夹data下面各个文件夹和文件里面的内容究竟是什么？ crawl one-step crawler for intranets (DEPRECATED - USE CRAWL SCRIPT INSTEAD) readdb read / dump crawl db mergedb merge
读取nutch爬取内容方法
2017-07-14 10:04

柱子89的博客读取nutch内容有如下两种方法： 1 通过Nutch api SegmentReader读取。 public Content readSegment(String segPath,String url){ Text key= new Text(url); Path
nutch爬取不到数据
2015-10-27 22:54

gaoyan601的博客设置好nutch后，发现不报错误，但是爬取不到数据，这时候需要查看一下conf目录下nutch-site.xml文件中最后一行，accetp anything else，需要更改为：+^http://([a-z0-9]*\.)*sample.com/ 以上只为域名正则，可以更具...
nutch2.2.1和Mysql 环境的搭建。。。。可以爬下url.但是不知道为什么还有很多空的值在数据库中，还有待.zip
2024-02-22 12:40

nutch2.2.1和Mysql 环境的搭建。。。。可以爬下url.但是不知道为什么还有很多空的值在数据库中，还有待
nutch爬取笔记简单记录
2021-03-18 10:47

zzqtty的博客将apache-nutch-2.2.1-src.zip上传到liunx服务器路径 /opt/nutch 修改配置解压apache-nutch-2.2.1-src.tar.gz 修改gora.properties的数据库配置 $ wget ...
java nutch 爬虫_Java分布式爬虫Nutch教程——导入Nutch工程，执行完整爬取
2021-02-27 14:34

炁卺西蜀的博客在使用本教程之前，需要满足条件：1)有一台Linux或Linux虚拟机2)安装JDK(推荐1.7)3)安装Apache Ant下载Nutch源码：安装IDE：推荐使用Intellij或者Netbeans，如果用eclipse也可以，不推荐。Intellij官方下载地址：...
nutch
2021-03-26 13:58

现在退休的Nutch 2.x分支在一个关键方面不同于1.x：通过使用Apache Gora处理对象到持久映射以及存储获取时间，状态，内容和已解析的文本，将存储从任何特定的基础数据存储中抽象出来。，外链，内链等到许多NoSQL...
没有解决我的问题, 去提问

悬赏问题

¥15 HFSS 中的 H 场图与 MATLAB 中绘制的 B1 场部分对应不上
¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？

请问为什么我用Nutch爬取不到百度百科和百度文库里面的内容？

1条回答

accept hosts in MY.DOMAIN.NAME

悬赏问题