qq_30819835
qq_30819835
2016-12-07 07:50
采纳率: 84.6%
浏览 1.3k

找到一个html页面下所有日期,天气,计数器代码

项目需要做一个页面分析 页面存在 日期,天气,计数器等html代码 我需要找到这些代码并对这些代码进行过滤再进行分析。
如何在java中通过爬虫爬取的页面中找到这些日期,天气,计数器等html代码。请讲解一些思路!谢谢

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 邀请回答

3条回答 默认 最新

  • qq381332153
    noWayBinding 2016-12-07 08:02
    已采纳

    简单粗暴地就用jsoup拿正则去匹配那些信息

    高大上的就用一些爬虫框架,可以多线程的抓,国内有个可以试试http://git.oschina.net/l-weiwei/spiderman

    点赞 评论
  • kun_tostudy
    kun_hello 2016-12-07 07:57

    jsoup
    http://www.open-open.com/jsoup/
    如果你会用js的话就很好写 就和原声js差不多 获取dom元素 获取id/class/tag等等

    点赞 评论
  • qq_25324335
    袁杰Jerry 2016-12-07 10:41

    用jsoup,写个正则,匹配一下就行啦。

    点赞 评论

相关推荐