最近有一个问题就是想从多个角度尽可能的提取能够完整准确地表达一个页面的特征从而构成页面的签名元素,以此来计算相似度,这个问题不同于以往的异常检测或者恶意页面检测那样,可有针对性地提取页面的特征用于检测,这样的话就是大而全的问题了,如何来细化呢?比如我从文本入手,需要提取页面清洗后的正文内容之后计算相似度但是如何进行页面内容的声音呢?在大规模的数据背景下怎么解决?
关注
码龄 粉丝数 原力等级 --
- 被采纳
- 被点赞
- 采纳率

首页/
大规模网页相似度计算
收起
- 写回答
- 好问题 0 提建议
- 关注问题
微信扫一扫
点击复制链接分享
- 邀请回答
- 编辑 收藏 删除 结题
- 收藏 举报
0条回答 默认 最新
编辑
预览

轻敲空格完成输入
- 显示为
- 卡片
- 标题
- 链接
报告相同问题?
提交
- 2022-11-13 02:39在实际工程中,Shingling和Minhashing的结合使用可以有效处理大规模数据的相似度计算,提供快速且准确的结果。由于它们的计算效率和存储效率,这些方法在互联网领域的推荐系统、内容去重、社交网络分析等多个场景下...
- 2021-02-06 18:26比如大规模数据处理效率问题、模型训练时的过拟合风险等。 3. **伦理考量**:在收集和分析用户行为数据时,如何平衡数据利用与用户隐私保护之间的关系?如何确保算法决策的透明性和公正性? 通过以上内容可以看出,...
- 2024-10-02 11:02在实现语义相似度计算时,研究者们通常会先构建一个大规模的语料库,其中包含了大量的句子、短语或单词。然后,他们使用人工神经网络模型对这些语言单元进行编码,将其转换为高维空间中的向量表示。在高维空间中,...
- 2008-05-05 13:40### 大规模网页快速去重算法详解 #### 引言 在互联网的迅猛发展中,海量信息的积累成为了信息检索领域的一大挑战。据2001年4月的统计数据,网络中已存在超过28,669,939个网站,且数量持续快速增长。这些网站承载了...
- 2024-03-15 04:33知识图谱是一种结构化的知识表达形式,它以...总之,知识图谱是一个大规模、多领域、多源异构知识集成的载体,是实现智能化信息系统的基础工具和关键基础设施,对于提升信息检索质量、推动智能应用研发具有重要作用。
- 2024-07-06 17:01AI天才研究院的博客 Transformer大模型实战 计算句子的相似度 作者:禅与计算机程序设计艺术 / Zen and the Art of Computer Programming 关键词:Transformer模型, 句子相似度, 自注意力机制, 余弦相似度, 模型评估 1.
- 2020-12-28 09:32Singmi2015的博客 1、simhash分桶策略,只适合基本完全相同的文本查重,比如网页查重。64位simhash如果有3位以内的海明距离,则认为文本一致;存储使用hbase等列式存储,分4个桶,64位simhash分4个桶存储,必有一个key一致。这样性能...
- 2021-08-09 16:3211. 分类体系和语料库统计的局限性:指出传统的基于分类体系的语义相似度计算方法主观性强,而依赖大规模语料库的方法存在数据稀疏问题。 12. 语义相似度计算的研究现状:评述了近年来国内外关于语义相似度计算的...
- 2019-11-05 07:25搜索与推荐Wiki的博客 为了满足此需求,出现了多种技术,如:搜索引擎、推荐系统、问答系统、文档分类与聚类、文献查重等,而这些应用场景的关键技术之一就是文本相似度计算技术。因此了解文本相似度的计算方法是很有必要的。 文本相似度...
- 没有解决我的问题, 去提问
联系我们(工作时间:8:30-22:00)
400-660-0108kefu@csdn.net在线客服
- 京ICP备19004658号
- 经营性网站备案信息
公安备案号11010502030143
- 营业执照
- 北京互联网违法和不良信息举报中心
- 家长监护
- 中国互联网举报中心
- 网络110报警服务
- Chrome商店下载
- 账号管理规范
- 版权与免责声明
- 版权申诉
- 出版物许可证
- ©1999-2025北京创新乐知网络技术有限公司