计算文本相似度算法推荐

请问一下各位，想要找一个计算文本相似度的算法，我的数据是纯英文文本，大概有两千多万条没有标注的文本，有没有推荐的算法呀。目前在考虑SBERT下的预训练模型，主要包括SimCSE、all-mpnet-base-v2、all-MiniLM-L6-v2这三类代表性模型。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2025-09-16 11:19
关注
阿里嘎多学长整理AIGC生成，因移动端显示问题导致当前答案未能完全显示，请使用PC端查看更加详细的解答过程

文本相似度算法推荐

您需要计算两千多万条英文文本的相似度，考虑使用预训练模型是正确的选择，特别是SBERT下面的模型。以下是一些推荐：

SimCSE: 这是SimCSE模型的一种特定预训练方案，使用contrastive学习方案对文本语义表示进行训练，可以在保持好语义表示的同时，提高文本的稀疏化。
all-mpnet-base-v2: 这基于MPNet预训练模型，MPNet模型的优势在于它采用全局自注意力机制（Global Attention）来捕捉长距依赖关系，相比BERT等模型它对长句子处理更好，有条件的情况下可以考虑使用。
其他选项: 还有不少其他的模型和算法可以使用，如FastText, Tfidf等，具体选用哪个模型最好，建议在实验中进行验证，并且可以结合您的评估指标来优化模型。
数据准备: 需要注意的是您的数据量非常大，数据处理和分词需要考虑使用分布式处理来提高效率。
算法评估: 在模型选择后，还需要评估这些模型的表现，您可以使用准确率、F1等指标来评估这些模型的结果。

# 简单的示例，用于计算两个文本的相似度 import torch from transformers import AutoModel, AutoTokenizer import numpy as np def text_similar(text1, text2, model_name): # 加载预训练模型和分词器 model = AutoModel.from_pretrained(model_name) tokenizer = AutoTokenizer.from_pretrained(model_name) # 对文本进行分词 encoding = tokenizer.encode_plus( text1, text2, add_special_tokens=True, max_length=512, return_attention_mask=True, return_tensors='pt' ) # 获取模型输出的向量表示 outputs = model(**encoding) # 计算两个向量的余弦相似度 sim = torch.cosine_similarity(outputs.last_hidden_state[:, 0], outputs.last_hidden_state[:, 1]) return sim.item() # example model_name = "sentence-bert/simcse-sbert-base-nli-mean-tokens" text1 = "这是一个例子文本" text2 = "这是另一个例子文本" sim = text_similar(text1, text2, model_name) print(f"文本相似度：{sim}")
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

计算文本相似度的常用算法
2021-03-07 14:33

氧小氢的博客文本分析是数据挖掘的重要手段，利用文本分析，我们将很快的读取到一本书、一篇文章、一段话中的关键词和核心思想，而文本相似度就是我们用来剔除无用信息或者重复信息的重要手段，让计算机去找文本中的不同。...
NLP——计算文本相似度的常用算法
2020-07-03 16:12

你要啥自行车的博客文章目录一、绪论二、余弦相似度2.1 余弦相似度定义2.2 计算相似度步骤2.3 举例2.4 改进方式2.5 代码三、TF-IDF计算3.1 TF、IDE、TF-IDF的计算方法3.1.1 词频TF的计算方法3.1.2 反文档频率IDF的计算方法3.1.3 TF-IDF...
【NLP-01】文本相似度算法：Cosine Similarity、Levenshtein Distance、Word2Vec等介绍和使用
2024-03-07 14:12

云天徽上的博客文本相似度计算的方法
人工智能大作业：关于计算文本相似度的深度神经网络模型与算法研究分析(BERT、SentenceBERT、SimCSE).zip
2023-07-20 14:24

在本项目中，我们主要探讨的是人工智能领域的一个关键任务——计算文本相似度，这涉及到深度学习、机器学习以及自然语言处理等多方面的技术。通过使用深度神经网络模型，尤其是BERT（Bidirectional Encoder ...
使用AI开源平台：文本相似度算法的应用(可本地化部署)
2024-04-08 10:45

思通数科x的博客文本相似度算法能够衡量两个短文本之间的语义相似性。这种算法的核心在于通过先进的自然语言处理技术，理解文本的深层含义，并将其转化为一个实数值，以此来表示两个文本的相似程度。在实际应用中，这种算法的输出值...
人工智能-项目实践-强化学习-文本相似度计算模型（双塔）.zip
2023-12-26 18:20

在人工智能领域，文本相似度计算是一项关键的技术，它在自然语言处理、信息检索、问答系统、推荐系统等众多应用场景中发挥着重要作用。本项目实践主要关注的是利用强化学习方法构建一个双塔模型来实现文本相似度计算...
文本相似度的三种算法
2024-06-13 20:56

酌沧AI的博客为了实现基于嵌入向量相似度来查找输入...如果想避免依赖外部库或模型，也可以使用传统的文本相似度方法（如 TF-IDF、词袋模型）配合 scikit-learn 来实现相似度计算，但这些方法通常无法捕捉到语义层次的相似度。
【相似度计算】详解文本相似度计算（介绍、公式）
2022-06-08 14:51

有梦想的程序星空的博客 相似度算法主要任务是衡量对象之间的相似程度，是信息检索、推荐系统、数据挖掘等的一个基础性计算。现有的关于相似度计算的方法，基本上都是基于向量的，也即计算两个向量之间的距离，距离越近越相似。欧几里得度量...
基于python的文本相似度计算系统设计与实现.docx
2023-08-10 17:09

1. 文本相似度计算的重要性：随着人工智能的快速发展，文本相似度计算作为自然语言处理中文本处理的一个重要分支，不仅在当下在未来也具有广泛应用，例如信息检索、推荐系统等相关领域。 2. 基于 Python 的文本...
计算文本相似度_利用python进行文本相似度测量
2021-01-12 14:24

我要WhatYouNeed的博客在自然语言处理(Natural Language Processing, NLP)中，经常会涉及到如何度量两个文本的相似度问题。...度量文本相似度包括如下三种方法：一是基于关键词匹配的传统方法，如N-gram相似度；二是将文...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月16日

计算文本相似度算法推荐

6条回答 默认 最新

问题事件

6条回答默认最新