diversity1
diversity1
2016-01-18 08:38
采纳率: 28.6%
浏览 1.8k
已采纳

利用crawler4j做网络爬虫如何抓取特定标题和发表时间

利用crawler4j做网络爬虫如何抓取特定标题和发表时间,地区等,还有什么值得推荐的爬虫工具(java)方向

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 邀请回答

4条回答 默认 最新

  • 91program
    91program 2016-01-18 08:46
    已采纳

    利用crawler4j做网络爬虫,你能抓取到数据的话,然后分析数据就行。特定的标题和发表时间,应该有特定的标识的,检查此标识然后取得想要的数据。

    点赞 评论
  • qq_17194815
    bigger_bug 2016-01-18 12:42

    可以使用httpclient来爬取

    点赞 评论
  • caozhy

    如果服务器支持rss,那么可以直接从中过滤,不支持rss,就只能先抓取标题和时间字段,然后再下载文章。这个不同的网站是不同的。
    虽然理论上可以通过Last-Modifed获得时间,但是很少有web服务器用它。

    点赞 评论
  • wojiushiwo945you
    毕小宝 2016-01-18 14:10

    java自带的类HttpURLConnection可以模拟浏览器抓起请求网站的内容,拿到内容后就可以对其html源文件进行分析。
    可以用htmlparser进行解析你需要的数据。

    点赞 评论

相关推荐