Together_CZ
2017-06-05 08:20
浏览 831

大规模网页相似度计算

最近有一个问题就是想从多个角度尽可能的提取能够完整准确地表达一个页面的特征从而构成页面的签名元素,以此来计算相似度,这个问题不同于以往的异常检测或者恶意页面检测那样,可有针对性地提取页面的特征用于检测,这样的话就是大而全的问题了,如何来细化呢?比如我从文本入手,需要提取页面清洗后的正文内容之后计算相似度但是如何进行页面内容的声音呢?在大规模的数据背景下怎么解决?

相关推荐 更多相似问题