请问为什么我用Nutch爬取不到百度百科和百度文库里面的内容？

经过设置我只能获取到百度百科和百度文库首页的一些页面，可是我想爬取这两个网站内部的页面，请问该如何配置？有没有人有成功的先例？
比如如果想要爬取百度文库里面的页面crawl-urlfilter.txt里面的正则表达式改如何编写？
多谢指教！

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
abcdwxc 2014-09-19 02:33
关注
nutch1.2在crawl-urlfilter.txt设置站点，1.2以上的版本要在regex-urlfilter.txt中配置。
具体是在accept hosts in MY.DOMAIN.NAME下设置要爬取的站点.
例如：

accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*.)*baidu.com/

在nutch目录下建个urls文件夹，里面建个baidu.txt文件，里面把要爬取的Url放进去。
http://wenku.baidu.com/
然后运行 bin/nutch crawl urls/baidu.txt -dir baidu/wenku -threads 4 -depth 2 -topN 30

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

基于Apache Nutch和Solr的AJAX页面内容爬取与处理设计源码
2024-04-17 05:38

本项目是基于Apache Nutch和Solr开发的AJAX页面内容爬取与处理设计源码，主要使用Java进行开发。项目共包含1064个文件，其中Java源代码文件458个，XML配置文件181个，文本文件81个，HTML页面文件56个，JPG图片文件56...
nutch网页爬取总结
2013-07-28 15:02

- **配置 Nutch 查询索引**：配置 Nutch 的 `conf/gora.properties` 和 `conf/hadoop-site.xml` 文件，以便连接到 Hadoop 集群（如果需要的话），并指定索引的存储位置。 **Nutch 爬取内容解析** 1. **Crawldb**...
使用Apache Nutch抓取网站内容
2025-02-12 16:38

税码行者的博客例如，如果您希望将爬取限制到域注意：如果不指定要包含在 regex-urlfilter.txt 中的任何域，将导致链接到您的种子 URL 文件的所有域也被抓取。使用 URL 列表为 crawldb 设定种子1. 从初始种子列表引导现在我们有一...
nutch爬取内容分析和爬取流程命令实现
2015-12-13 22:38

当以乐的博客 1、 nutch的存储文件夹data下面各个文件夹和文件里面的内容究竟是什么？ crawl one-step crawler for intranets (DEPRECATED - USE CRAWL SCRIPT INSTEAD) readdb read / dump crawl db mergedb merge
nutch分布式爬虫单击爬取教程完整版
2020-05-27 22:39

saisaiz的博客 nutch分布式爬虫单击爬取教程完整版目录一、环境二、安装目录三、爬取网站四、爬取步骤 1. 创建新的虚拟机 2. 配置Nutch （1）安装JDK 2 （2）安装Ant （3）构建nutch编译环境（4）验证Nutch安装 3 . 分步爬取...
读取nutch爬取内容方法
2017-07-14 10:04

柱子89的博客读取nutch内容有如下两种方法： 1 通过Nutch api SegmentReader读取。 public Content readSegment(String segPath,String url){ Text key= new Text(url); Path
nutch爬取不到数据
2015-10-27 22:54

gaoyan601的博客设置好nutch后，发现不报错误，但是爬取不到数据，这时候需要查看一下conf目录下nutch-site.xml文件中最后一行，accetp anything else，需要更改为：+^http://([a-z0-9]*\.)*sample.com/ 以上只为域名正则，可以更具...
nutch2.2.1和Mysql 环境的搭建。。。。可以爬下url.但是不知道为什么还有很多空的值在数据库中，还有待.zip
2024-02-22 12:40

3. **配置 Nutch**: 解压 Nutch 2.2.1 压缩包，编辑 `conf/nutch-site.xml` 文件，将存储和索引数据的配置更改为使用 MySQL。你需要添加以下配置项： ``` <name>storage.data.db.url <value>jdbc:mysql://...
nutch爬取笔记简单记录
2021-03-18 10:47

zzqtty的博客将apache-nutch-2.2.1-src.zip上传到liunx服务器路径 /opt/nutch 修改配置解压apache-nutch-2.2.1-src.tar.gz 修改gora.properties的数据库配置 $ wget ...
python 爬取网页内容并保存到数据库_python爬取数据并保存到数据库中（第一次练手完整代码）...
2021-01-12 10:40

香浓拉码的博客 2. 创建conndb py,包括数据库连接断开,添加、删除、修改、和其他操作:# !\/usr\/bin\/env python # - * -编码:utf - 8 - *进口pymysqldef conn_db(): #连接到数据库函数康涅狄格州=(主机=\u201Clocalhost\u201D,用户...
nutch的简单爬取
2015-12-13 22:21

当以乐的博客上篇博客介绍了一下nutch的下载和构建,这篇主要分享一下nutch的简单爬取,和爬取流程在主目录下运行bin/nutch 会看到 crawl one-step crawler for intranets (DEPRECATED - USE CRAWL SCRIPT INSTEAD) ...
java nutch 爬虫_Java分布式爬虫Nutch教程——导入Nutch工程，执行完整爬取
2021-02-27 14:34

炁卺西蜀的博客在使用本教程之前，需要满足条件：1)有一台Linux或Linux虚拟机2)安装JDK(推荐1.7)3)安装Apache Ant下载Nutch源码：安装IDE：推荐使用Intellij或者Netbeans，如果用eclipse也可以，不推荐。Intellij官方下载地址：...
nutch
2021-03-26 13:58

现在退休的Nutch 2.x分支在一个关键方面不同于1.x：通过使用Apache Gora处理对象到持久映射以及存储获取时间，状态，内容和已解析的文本，将存储从任何特定的基础数据存储中抽象出来。，外链，内链等到许多NoSQL...
基于Apache Nutch和Solr等组件扩展实现对于AJAX加载类型页面的完整页面内容抓取，以及特定数据项的解析和索引
2023-06-14 20:16

本文将深入探讨如何使用Apache Nutch与Solr等组件，结合Htmlunit和Selenium WebDriver，来实现对AJAX加载类型页面的全面内容抓取、解析、索引，以及特定数据项的提取。首先，Apache Nutch是一个开源的Web爬虫框架...
nutch_recrawl_mergecrawl.rar_nutch_nutch recrawl_recrawl
2022-09-20 14:23

使用 `recrawl` 和 `mergecrawl` 需要对 Nutch 的配置文件有深入理解，包括但不限于 `conf/nutch-site.xml` 和 `conf/crawldb-default.xml`。配置文件中涉及的参数包括爬取间隔、URL 排队策略、存储路径等。同时，`...
nutch-auth-example:使用 Nutch 对 mrs.org 进行身份验证和抓取的示例
2021-06-16 12:16

此 WIP Nutch 部署使用 Nutch 自动登录并抓取。运行build.sh以检出 Nutch 主干，构建它，并复制必要的配置文件。完成后， cd dist使用新配置的 Nutch 发行版。有关更新的配置文件，请参阅和。运行命令bin/...
nutch-analysis.rar_nutch
2022-09-23 11:11

3. **Warc文件**: Nutch使用WARC（Web ARChive）格式存储网页的原始内容。WARC文件包含了网页的HTTP响应，包括状态码、头部信息和正文内容。 4. **Text and Metadata**: Nutch会从HTML中提取文本内容并保存在`_...
基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件.zip
2024-04-08 22:24

【标题】"基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件.zip" 提供了一个深入的爬虫项目实例，旨在解决AJAX动态网页内容的抓取问题。Apache Nutch是一个开源的网络爬虫框架，而Htmlunit是一个无头...
eclipse中读取nutch爬取的数据内容
2015-09-22 11:41

zhujie378的博客最近在研究Nutcha的爬虫和解析，在windows中利用cygwin执行nutch爬取网页。那么爬取到的数据如何取到自己的程序中来使用呢？参考了以下博主的内容，不过博主太懒没有任何文字描述。读取nutch爬取的数据内容 ...
没有解决我的问题, 去提问

请问为什么我用Nutch爬取不到百度百科和百度文库里面的内容？

1条回答 默认 最新

accept hosts in MY.DOMAIN.NAME

1条回答默认最新