是否可以使用TF-IDF矩阵计算余弦相似度

最近在做基于内容的课程推荐，使用到了sklearn中的TfidfVectorizer。
核心流程如下：

vectorizer = TfidfVectorizer() 
 #corpus存储的是分好词的语料库
tfidf = vectorizer.fit_transform(corpus)#得到TF-IDF矩阵
weight = tfidf.toarray()
similarity_matrix = cosine_similarity(weight)#计算余弦相似度

以上代码段是我之前在一些博客上看到的，我疑惑的是：
我们一般使用文本的词向量来计算文本之间的相似度的，但是这里使用TF-IDF矩阵作为参数传入cosine_similarity()，也就是使用TF-IDF矩阵替代词频矩阵来计算余弦相似度。虽然词频矩阵和TF-IDF矩阵结构很相似，词频矩阵只有0和1，而TF-IDF矩阵是将1换为TF-IDF值。但是从严谨的角度来说，这样做可以吗？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Eastmount Python领域优质创作者 2020-08-09 21:49
关注
你好，这样是可以做的，因为不论是词频还是TF-IDF，这个矩阵的表头对应的特征是固定的，如果两个文本非常相似即特征词很多相同，则对应矩阵相同特征词出现的数据会存在，反之不相似的文本特征词数据不会太重复，再通过COS计算的时候，相似的COS值更接近1，从而能实现相似度计算。但这依赖于分词、文本、特征词这些各种细节，需要不断优化才行。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

用python实现tf-idf值计算相关问题 python 自然语言处理
2022-04-19 20:14

回答 1 已采纳建议把代码上传上来，而不是发个截图。不然没人看的。
求TF-IDF改进算法（python语言） python 有问必答算法
2021-08-16 11:27

回答 3 已采纳参考一下：一文看懂 TF-IDF (概念图解+4大变种+发展历史) 简单来说，向量空间模型就是希望把查询关键字和文档都表达成向量，然后利用向量之间的运算来进一步表达向量间的关系。比如，一个比
TF-IDF特征选取和划分数据集 python
2023-02-10 22:12

回答 2 已采纳首先，我们需要把文本数据处理为特征矩阵。这可以使用sklearn库中的CountVectorizer和TfidfTransformer实现： # 实例化CountVectorizer vectoriz
tf-idf 余弦相似度_scitkit-learn：计算机科学论文的TF / IDF和余弦相似度
2020-05-21 15:55

danpu0978的博客 tf-idf 余弦相似度 几个月前，我下载了几千篇计算机科学论文的元数据，以便尝试编写一个迷你推荐引擎来告诉我接下来应该读什么论文。由于我没有任何人可以阅读每篇论文的数据，因此排除了协作过滤方法，所以我...
在 TF-IDF 特征提取的基础上对模型建立与评估 python 逻辑回归
2023-02-11 22:48

回答 4 已采纳 import numpy as np import pandas as pd import time import jieba import re import string import pick
在VScode上使用ESP-IDF的时候build project遇到问题 python 有问必答
2021-04-29 10:02

回答 6 已采纳报错是叫你看日志信息：C:/Users/14337/Desktop/esp32test/blink/build/CMakeFiles/CMakeOutput.log
在编译esp32时出现cmake无法读取文件的问题，所用框架为esp-idf c语言 iot 有问必答
2021-10-30 19:12

回答 2 已采纳在esp-idf\components\mbedtls\esp_crt_bundle下边找到“cacrt_all.pem”这个文件，搜索"EC-ACC"，删除“EC-ACC”和"END CERTIFI
机器学习：TF-IDF 算法学习
2024-01-27 21:54

Maslow503的博客找出相似文章：使用TF-IDF算法，可以找出两篇文章的关键词，然后计算两个向量的余弦相似度，值越大表示两篇文章越相似。信息过滤：TF-IDF可以用于信息过滤，通过计算查询串和文档之间的相似度，将不相关的文档过滤...
ESP-IDF写esp32延时函数错误单片机物联网
2023-03-16 18:53

回答 3 已采纳参考GPT和自己的思路：根据代码看，您的延时函数似乎存在以下几个问题：没有对变量n进行初始化，导致程序无法正常工作；在do-while循环中使用了timer_get_counter_value(
用VSCODE搭建 ESP-IDF 开发环境学个hello_world，到这怎么都做不下去，谁知道为什么？ python vscode 单片机
2021-10-24 19:13

回答 1 已采纳这个方法似乎过时了，VSCode里直接搜索ESP的插件即可。
esp32，使用vs2012编译出现 ninja: build stopped: subcommand failed. visualstudio
2022-02-28 15:22

回答 1 已采纳是 bootloader.elf 文件的问题，文件被加密了。
自然语言处理NLP：tf-idf原理、参数及实战
2024-03-14 18:14

python慕遥的博客大家好，tf-idf作为文体特征提取的常用统计方法之一，适合用于文本分类任务，本文将从原理、参数详解和实际处理方面介绍tf-idf，助力tf-idf用于文本数据分类。tf 表示词频，即某单词在某文本中的出现次数与该文本中...
vue组件里使用bpmn-viewer报错 vue.js xml 前端
2021-12-03 15:42

回答 1 已采纳在 data里没有定义 user
TF-IDF算法及实现
2021-10-31 00:36

Ada的信徒的博客 TF-IDF的计算方法有很多种，这里主要用的是SKLEARN中的计算方式，还是有些不一样，费了点劲儿才搞明白。 TF：Term Frequency，词频指的是某个词在某篇文章中出现的次数，计算公式为：TF = 某词在某文档中出现的...
NLP之TF-IDF：VSM向量空间模型(仅关键词组成的浮点数字向量)的简介、TF-IDF(VSM的常用的统计法)简介之详细攻略
2023-02-03 23:49

一个处女座的程序猿的博客 1、TF-IDF的矩阵计算公式 VSM向量空间模型(仅关键词组成的浮点数字向量)的简介 VSM的背景向量空间模型，Vector Space Model，VSM，由Salton等人于20世纪70年代提出，并成功地应用于著名的SMART文本检索系统...
没有解决我的问题, 去提问

悬赏问题

¥15 安卓adb backup备份应用数据失败
¥15 eclipse运行项目时遇到的问题
¥15 关于#c##的问题：最近需要用CAT工具Trados进行一些开发
¥15 南大pa1 小游戏没有界面，并且报了如下错误，尝试过换显卡驱动，但是好像不行
¥15 没有证书，nginx怎么反向代理到只能接受https的公网网站
¥50 成都蓉城足球俱乐部小程序抢票
¥15 yolov7训练自己的数据集
¥15 esp8266与51单片机连接问题(标签-单片机|关键词-串口)（相关搜索：51单片机|单片机|测试代码）
¥15 电力市场出清matlab yalmip kkt 双层优化问题
¥30 ros小车路径规划实现不了，如何解决？(操作系统-ubuntu)

是否可以使用TF-IDF矩阵计算余弦相似度

1条回答 默认 最新

悬赏问题

1条回答默认最新