Together_CZ 2017-06-05 08:20
浏览 838

大规模网页相似度计算

最近有一个问题就是想从多个角度尽可能的提取能够完整准确地表达一个页面的特征从而构成页面的签名元素,以此来计算相似度,这个问题不同于以往的异常检测或者恶意页面检测那样,可有针对性地提取页面的特征用于检测,这样的话就是大而全的问题了,如何来细化呢?比如我从文本入手,需要提取页面清洗后的正文内容之后计算相似度但是如何进行页面内容的声音呢?在大规模的数据背景下怎么解决?

 • 写回答

0条回答 默认 最新

   报告相同问题?

   悬赏问题

   • ¥15 fpga二选一数据选择器语句分析
   • ¥15 matlab有svec这个函数吗?
   • ¥15 无法调用VideoWriter_fourcc
   • ¥15 VB6.0无法加载网页验证码图片到picturebox中,求解。
   • ¥15 C#和GDAL对栅格处理
   • ¥15 我现在有一些关于提升机故障的专有文本数据,量也不多,我在label studio上进行了关系和实体的标注,完成了知识图谱的构造,那么我使用生成式模型的话,我能做哪些工作来写我的论文?
   • ¥15 电脑连不上无线网络如下诊断反馈应该如何操作
   • ¥15 telegram api 使用forward_messages方法转发消息时,目标群组里面会出现此消息来源,如何隐藏?
   • ¥15 关于#tensorflow#的问题:有没有什么方法可以让机器自己学会像素风格的图片
   • ¥15 Oracle触发器字段变化时插入指定值