是否可以使用TF-IDF矩阵计算余弦相似度

最近在做基于内容的课程推荐，使用到了sklearn中的TfidfVectorizer。
核心流程如下：

vectorizer = TfidfVectorizer() 
 #corpus存储的是分好词的语料库
tfidf = vectorizer.fit_transform(corpus)#得到TF-IDF矩阵
weight = tfidf.toarray()
similarity_matrix = cosine_similarity(weight)#计算余弦相似度

以上代码段是我之前在一些博客上看到的，我疑惑的是：
我们一般使用文本的词向量来计算文本之间的相似度的，但是这里使用TF-IDF矩阵作为参数传入cosine_similarity()，也就是使用TF-IDF矩阵替代词频矩阵来计算余弦相似度。虽然词频矩阵和TF-IDF矩阵结构很相似，词频矩阵只有0和1，而TF-IDF矩阵是将1换为TF-IDF值。但是从严谨的角度来说，这样做可以吗？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Eastmount 优质创作者: python技术领域 2020-08-09 21:49
关注
你好，这样是可以做的，因为不论是词频还是TF-IDF，这个矩阵的表头对应的特征是固定的，如果两个文本非常相似即特征词很多相同，则对应矩阵相同特征词出现的数据会存在，反之不相似的文本特征词数据不会太重复，再通过COS计算的时候，相似的COS值更接近1，从而能实现相似度计算。但这依赖于分词、文本、特征词这些各种细节，需要不断优化才行。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

基于Python实现TF-IDF矩阵表示(人工智能实验)【100011921】
2023-04-19 14:37

在Python中，可以使用`sklearn.feature_extraction.text.TfidfVectorizer`来实现TF-IDF矩阵的计算。首先，需要将文本数据转换为适合处理的格式，如`sklearn`的`CountVectorizer`可以将文本转换为词频向量。然后，...
数据挖掘实战：基于 TF-IDF + 余弦相似度的个性化论文推荐
2025-04-15 07:05

威哥说编程的博客在文本处理中，我们可以将文档表示为向量（例如通过TF-IDF），然后计算不同文档之间的余弦相似度。在本文中，我们介绍了如何通过基于TF-IDF和余弦相似度的方法构建一个简单的论文推荐系统。这个系统通过分析论文之间...
教育科技基于深度学习的软考资源推荐系统设计：融合TF-IDF与余弦相似度的个性化备考方案实现
2026-01-01 20:51

文中提供了完整的代码示例，展示从数据预处理、TF-IDF向量化到余弦相似度计算的全过程，并展望了生成式AI、多模态交互与预测性分析在备考系统中的未来应用。; 适合人群：具备一定Python编程与机器学习基础，从事...
基于TF-IDF的相似度算法原理：从基础到应用
2025-12-11 11:09

牙周炎先生的博客摘要：TF-IDF相似度算法通过量化词语在文档...实现过程包括文本预处理、TF-IDF矩阵构建和余弦相似度计算，可通过Python等工具快速实现。尽管存在更复杂的替代方法，TF-IDF因其透明性和计算效率仍被广泛应用。（149字）
数据挖掘实战-基于TFIDF+余弦相似度的个性化论文推荐
2024-10-10 10:41

艾派森的博客基于TF-IDF和余弦相似度的个性化论文推荐系统，通过提取论文的关键词特征，构建论文的向量表示，并利用余弦相似度计算论文之间的相似程度，从而为用户推荐与其研究兴趣和需求高度匹配的论文。这种推荐系统不仅能够...
【TF-IDF|1】深入解析TF-IDF算法—基础介绍
2024-06-15 11:09

颜淡慕潇的博客通过上述优化和扩展，我们不仅实现了基础的TF-IDF算法，还通过使用现成的库（如）提升了计算效率，并扩展了应用场景（如文档相似度计算）。TF-IDF作为一种经典的文本处理技术，广泛应用于信息检索、文本分类和自然...
tf-idf 余弦相似度_scitkit-learn：计算机科学论文的TF / IDF和余弦相似度
2020-05-21 15:55

danpu0978的博客 tf-idf 余弦相似度 几个月前，我下载了几千篇计算机科学论文的元数据，以便尝试编写一个迷你推荐引擎来告诉我接下来应该读什么论文。由于我没有任何人可以阅读每篇论文的数据，因此排除了协作过滤方法，所以我...
TF-IDF算法详解
2025-05-04 13:52

巷955的博客 TF-IDF（Term Frequency-Inverse Document Frequency）是信息检索和文本挖掘中常用的加权技术，用于评估一个词语对于一个文档集或语料库中某个文档的重要程度。
FastAPI项目：从零到一搭建一个新闻推荐系统（基于TF-IDF向量化加余弦相似度）
2026-01-10 20:59

数据知道的博客本文详细介绍从零到一搭建基于FastAPI的新闻推荐系统，并给出完整Python代码，推荐算法基于 TF-IDF向量化 + 余弦相似度 ，页面打开截图如下：
自然语言处理之文本摘要：TF-IDF：语义分析与TF-IDF权重调整
2025-06-01 23:16

zhubeibei168的博客语义分析旨在理解文本的深层含义，包括识别实体、关系、情感和主题等。它超越了简单的词频统计，尝试捕捉...TF-IDF的计算结合了词频（Term Frequency, TF）和逆文档频率（Inverse Document Frequency, IDF）两个指标。
自然语言处理基础：词的表示（TF-IDF向量）
2025-06-01 10:25

数字化与智能化的博客自然语言处理基础：词的表示（TF-IDF向量）；TF - IDF 的计算
TF-IDF提取关键词（附实战案例）
2025-08-02 23:35

AI 嗯啦的博客 TF-IDF（Term Frequency-Inverse Document Frequency）是一种用于信息检索与文本挖掘的常用加权技术，其核心思想是，广泛应用于搜索引擎排序、文本分类、关键词提取等领域。
没有解决我的问题, 去提问

是否可以使用TF-IDF矩阵计算余弦相似度

1条回答 默认 最新

1条回答默认最新