2 diversity1 diversity1 于 2016.01.18 16:38 提问

利用crawler4j做网络爬虫如何抓取特定标题和发表时间

利用crawler4j做网络爬虫如何抓取特定标题和发表时间,地区等,还有什么值得推荐的爬虫工具(java)方向

4个回答

91program
91program   Ds   Rxr 2016.01.18 16:46
已采纳

利用crawler4j做网络爬虫,你能抓取到数据的话,然后分析数据就行。特定的标题和发表时间,应该有特定的标识的,检查此标识然后取得想要的数据。

caozhy
caozhy   Ds   Rxr 2016.01.18 21:17

如果服务器支持rss,那么可以直接从中过滤,不支持rss,就只能先抓取标题和时间字段,然后再下载文章。这个不同的网站是不同的。
虽然理论上可以通过Last-Modifed获得时间,但是很少有web服务器用它。

wojiushiwo945you
wojiushiwo945you   Ds   Rxr 2016.01.18 22:10

java自带的类HttpURLConnection可以模拟浏览器抓起请求网站的内容,拿到内容后就可以对其html源文件进行分析。
可以用htmlparser进行解析你需要的数据。

qq_17194815
qq_17194815   2016.01.18 20:42

可以使用httpclient来爬取

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
crawler4j爬虫--爬取技巧总结(鄙人之见)
阅读对象:有一定全文检索(最好会lucene)的理论和实践基础的同学。 对全文检索不是太了解的请参考我前几篇博客 首先,我想爬取图片,让自己的搜索 可以爬取图片,首先找一个图片网站我选取的一个网站是http://sc.chinaz.com/ 。为什么不选取百度图片或者相约久久,因为这两个网站 的html太复杂了。因此选择这个网站进行全站爬取。 环境:firefox(firebug插
Java网络爬虫crawler4j学习笔记<6> WebURL类
源代码分析package edu.uci.ics.crawler4j.url;import java.io.Serializable;import com.sleepycat.persist.model.Entity; import com.sleepycat.persist.model.PrimaryKey;@Entity // Berkley DB Annotation public class
JAVA网络爬虫WebCollector深度解析——爬虫内核
JAVA开源爬虫内核WebCollector,让爬虫开发变得简单。WebCollector提供了一个稳定高效的JAVA爬虫框架,同时也提供了爬虫所需的基本类库,内置了几套基本的爬虫(有界面)。无论你是做网页爬取还是网页抽取,都可以通过几行简单的代码完成。爬虫内核有独有的“消息机制”和“URL遍历器”,可完成深网爬取。项目在github上持续更新。
使用Crawler4j总结
下载demo跑起来之后出现: Failed to load class “org.slf4j.impl.StaticLoggerBinder”.的错误。发现是maven配置少了log的框架。slf4j只是一个log的接口需要有log4j等的实现。顺便贴下log4j.properties的内容.#log4j.rootLogger=debug,appender1,appender2 log4j.roo
python获取新闻标题及发布时间
最近因为手里头需要不断查看某校的新闻发布,不想频繁的刷新网页,于是就有了下面的这个轻量级的爬虫出现了,闲言少叙,步入正题~ 环境介绍: python 2.7  BS4(这是一个强大的三方moudle,现在关于这个moudle的掌握还在学习中~) 待爬取的网页: yjsc.shnu.eds(上海师范大学全日制研究生招生信息) 首先,分析下网页的源码,关于这一步,网上很多教程,有用
基于crawler4j的数据抓取实现方案
基于crawler4j的数据抓取实现方案
crawler4j爬虫技术获取a标签的title及链接
最近的项目用到了爬虫技术,这里主要说明下crawler4j技术的获取对应的标签的链接及title的实现:首先是抓取类: 1、必须继承于WebCrawler,实现shouldVisit和visit两个方法。 2、使用一个入口类进行采集任务,并进行处理。第一点:
Java网络爬虫crawler4j学习笔记<20> 网页内容转码解析
简介网页内容解析相关的类和接口位于包edu.uci.ics.crawler4j.parser中,用于拆分解析html网页的各部分内容。源代码ParseData接口ParseData 接口包含getOutgoingUrls方法,用于获取当前页面的所有外链。package edu.uci.ics.crawler4j.parser;import edu.uci.ics.crawler4j.url.WebU
网络爬虫爬取新浪某篇文章的标题、日期时间、来源、作者及文章内容(Python)
学习网络爬虫
Java开源爬虫框架crawler4j
花了两个小时把Java开源爬虫框架crawler4j文档翻译了一下,因为这几天一直在学习Java爬虫方面的知识,今天上课时突然感觉全英文可能会阻碍很多人学习的动力,刚好自己又正在接触这个爬虫框架,所以决定翻译一下。六级540多分的水平,大家见谅 。每句话都有根据自己的理解来翻译。特别是快速开始那一部分的源代码。这里是: github项目地址crawler4j crawler4j是一个开源的J