Together_CZ 2017-06-05 00:20
浏览 842

大规模网页相似度计算

最近有一个问题就是想从多个角度尽可能的提取能够完整准确地表达一个页面的特征从而构成页面的签名元素,以此来计算相似度,这个问题不同于以往的异常检测或者恶意页面检测那样,可有针对性地提取页面的特征用于检测,这样的话就是大而全的问题了,如何来细化呢?比如我从文本入手,需要提取页面清洗后的正文内容之后计算相似度但是如何进行页面内容的声音呢?在大规模的数据背景下怎么解决?

  • 写回答

0条回答 默认 最新

      编辑
      预览

      报告相同问题?

      手机看
      程序员都在用的中文IT技术交流社区

      程序员都在用的中文IT技术交流社区

      专业的中文 IT 技术社区,与千万技术人共成长

      专业的中文 IT 技术社区,与千万技术人共成长

      关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

      关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

      客服 返回
      顶部