kakaja
2009-11-24 11:59 阅读 316
已采纳

java 网站信息量分析

本人要做一个网站信息量分析,统计类的网站,到目前为止还没有思路,各位高人给指点指点。

例如 统计 http://news.ccidnet.com/col/945/945.html 这个栏目下所有文章数
统计 http://www.np.gov.cn/TemplateNew/zfxxgk/list.jsp?1&currCatalogID=20070513350124&pageIndex=1
这个网站栏目下的信息量。

求高人给点思路。 由于各网站构建思路不同,所以方法不能写死。

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 复制链接分享

3条回答 默认 最新

  • 已采纳
    lsc20051426 lsc20051426 2009-11-24 22:27

    这种很难做到通用
    不过你可以这样
    1.输入一个待匹配的正则
    2.输入一个要分析的网址
    3.匹配,得出结果
    不过第一步,要是不懂正则表达式,就没法进行了
    PS:脚本类语言来做这东西比较合适

    点赞 评论 复制链接分享
  • lixjluck lixjluck 2009-11-24 12:40

    用他們提供的RSS?

    点赞 评论 复制链接分享
  • cqllang cqllang 2009-11-24 13:51

    你指的信息量是网站文章的数量吗?不是浏览访问量哈?

    我以前做网站采集的时候好像统计过。不知道符合你的要求不。。

    如果你想知道http://news.ccidnet.com/col/945/945.html 这个页面下的文章数目。
    可以发现它们都是类似连到这样的url:
    http://news.ccidnet.com/art/945/20091124/xxxxxx_1.html

    你可以写一个正则来匹配一下这种url有多少个。。

    然后以此类推。。

    点赞 评论 复制链接分享

相关推荐