2 diversity1 diversity1 于 2016.01.18 16:38 提问

利用crawler4j做网络爬虫如何抓取特定标题和发表时间

利用crawler4j做网络爬虫如何抓取特定标题和发表时间,地区等,还有什么值得推荐的爬虫工具(java)方向

4个回答

91program
91program   Ds   Rxr 2016.01.18 16:46
已采纳

利用crawler4j做网络爬虫,你能抓取到数据的话,然后分析数据就行。特定的标题和发表时间,应该有特定的标识的,检查此标识然后取得想要的数据。

caozhy
caozhy   Ds   Rxr 2016.01.18 21:17

如果服务器支持rss,那么可以直接从中过滤,不支持rss,就只能先抓取标题和时间字段,然后再下载文章。这个不同的网站是不同的。
虽然理论上可以通过Last-Modifed获得时间,但是很少有web服务器用它。

wojiushiwo945you
wojiushiwo945you   Ds   Rxr 2016.01.18 22:10

java自带的类HttpURLConnection可以模拟浏览器抓起请求网站的内容,拿到内容后就可以对其html源文件进行分析。
可以用htmlparser进行解析你需要的数据。

qq_17194815
qq_17194815   2016.01.18 20:42

可以使用httpclient来爬取

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!