tf-idf 特征词提取

已经用sklearn跑出来tf-idf的权重矩阵，现在我还想复现下文的工作，想向各路大神们求教！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-10-27 19:59
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
你看下这篇博客吧, 应该有用👉 ：TF-IDF详解与应用
除此之外, 这篇博客: TF-IDF算法详解及sklearn代码实现中的 （3）TF-IDF=TF*IDF 部分也许能够解决你的问题, 你可以仔细阅读以下内容或者直接跳转源博客中阅读:

即某一个文件中高频出现的词条，以及该词条在整个语料库文件中低频出现的现象，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。即：字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

在 TF-IDF 特征提取的基础上对模型建立与评估 python 逻辑回归
2023-02-11 22:48

回答 4 已采纳 import numpy as np import pandas as pd import time import jieba import re import string import pick
TF-IDF特征选取和划分数据集 python
2023-02-10 22:12

回答 2 已采纳首先，我们需要把文本数据处理为特征矩阵。这可以使用sklearn库中的CountVectorizer和TfidfTransformer实现： # 实例化CountVectorizer vectoriz
用python实现tf-idf值计算相关问题 python 自然语言处理
2022-04-19 20:14

回答 1 已采纳建议把代码上传上来，而不是发个截图。不然没人看的。
机器学习-文本特征提取（TF-IDF）：使用人工智能探索文本信息
2023-08-06 18:11

jmu xzh_0618的博客在当今信息爆炸的时代，文本数据...其中，TF-IDF（Term Frequency-Inverse Document Frequency）是一种常用且有效的文本特征提取方法。本文将深入探讨TF-IDF的原理、应用和实际案例，带你走进文本特征提取的精彩世界。
求TF-IDF改进算法（python语言） python 有问必答算法
2021-08-16 11:27

回答 3 已采纳参考一下：一文看懂 TF-IDF (概念图解+4大变种+发展历史) 简单来说，向量空间模型就是希望把查询关键字和文档都表达成向量，然后利用向量之间的运算来进一步表达向量间的关系。比如，一个比
在VScode上使用ESP-IDF的时候build project遇到问题 python 有问必答
2021-04-29 10:02

回答 6 已采纳报错是叫你看日志信息：C:/Users/14337/Desktop/esp32test/blink/build/CMakeFiles/CMakeOutput.log
在编译esp32时出现cmake无法读取文件的问题，所用框架为esp-idf c语言 iot 有问必答
2021-10-30 19:12

回答 2 已采纳在esp-idf\components\mbedtls\esp_crt_bundle下边找到“cacrt_all.pem”这个文件，搜索"EC-ACC"，删除“EC-ACC”和"END CERTIFI
基于特定语料库的TF-IDF的中文关键词提取
2023-07-02 10:40

Keyword extraction based on TF-IDF of specific corpus. 基于特定语料库的TF-IDF的中文关键词提取
ESP-IDF写esp32延时函数错误单片机物联网
2023-03-16 18:53

回答 3 已采纳参考GPT和自己的思路：根据代码看，您的延时函数似乎存在以下几个问题：没有对变量n进行初始化，导致程序无法正常工作；在do-while循环中使用了timer_get_counter_value(
用VSCODE搭建 ESP-IDF 开发环境学个hello_world，到这怎么都做不下去，谁知道为什么？ python vscode 单片机
2021-10-24 19:13

回答 1 已采纳这个方法似乎过时了，VSCode里直接搜索ESP的插件即可。
如何将已经进行tfidf和glove处理好的数据导入文本 python 有问必答机器学习自然语言处理
2021-05-04 21:50

回答 3 已采纳你将数据让模型去训练学习啊
TF-IDF关键词提取改进——TF-IDF-CI
2023-07-28 09:36

江影清风的博客 TF-IDF是关键词提取中常用的手段，但是它仅仅考虑了特征词在文本中的词频和逆文档率，没有考虑到特征词在类内和类间中的分布情况，依然有很大的改进空间。而TF-IDF-CI就是对TF-IDF的一种改进方式。
esp32，使用vs2012编译出现 ninja: build stopped: subcommand failed. visualstudio
2022-02-28 15:22

回答 1 已采纳是 bootloader.elf 文件的问题，文件被加密了。
NLP自然语言处理——关键词提取之 TF-IDF 算法（五分钟带你深刻领悟TF-IDF算法的精髓）
2023-09-13 12:09

是dream的博客自然语言文本预处理、TF-IDF算法详解（三个维度：原理、流程图、代码）、好玩的中文关键词“词云生成”（解决乱码问题）# 获取停用词# 加载文档集，对文档集过滤词性和停用词# 使用TF-IDF提取关键词# 将过滤后的文档...
（3-7）特征提取：TF-IDF特征
2024-03-02 19:06

码农三叔的博客 TF-IDF是“词频-逆文档频率”（Term Frequency-Inverse Document Frequency）的缩写，是一种用于信息检索和文本挖掘的常用文本特征提取方法。TF-IDF的目标是确定一个文档中词汇的重要性，以便帮助理解文档的主题或...
没有解决我的问题, 去提问

悬赏问题

¥15 深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集
¥15 lammps拉伸应力应变曲线分析
¥15 C++ 头文件/宏冲突问题解决
¥15 用comsol模拟大气湍流通过底部加热（温度不同）的腔体
¥50 安卓adb backup备份子用户应用数据失败
¥20 有人能用聚类分析帮我分析一下文本内容嘛
¥15 请问Lammps做复合材料拉伸模拟，应力应变曲线问题
¥30 python代码，帮调试，帮帮忙吧
¥15 #MATLAB仿真#车辆换道路径规划
¥15 java 操作 elasticsearch 8.1 实现索引的重建

tf-idf 特征词提取

1条回答 默认 最新

悬赏问题

1条回答默认最新