打印出来的tf、idf值都是 0.0，怎么解决


# 导入所需库
from sklearn.feature_extraction.text import TfidfVectorizer

# 定义文档集合
documents = []
with open('D:\\用户-\\Downloads\\分词结果.txt', 'r', encoding='utf-8') as file:
    # 逐行读取文件内容并添加到documents列表中
    for line in file:
        documents.append(line.strip())

# 创建TfidfVectorizer对象
vectorizer = TfidfVectorizer()

# 计算TF-IDF值
tfidf_matrix = vectorizer.fit_transform(documents)

# 获取词语列表
feature_names = vectorizer.get_feature_names()

# 打印每个词语的TF-IDF值
for i in range(len(documents)):
    print("Document", i+1)
    for j in range(len(feature_names)):
        print(feature_names[j], ":", tfidf_matrix[i, j])

分词结果文件是一行一行的单个词语

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-04-19 09:58
关注
引自免费微信小程序：皆我百晓生

在计算TF-IDF值时遇到所有值都为0的情况，通常是因为文本预处理没有正确地进行。在这种情况下，可能是由于以下几个原因导致的：

文本被完全归一化（例如：所有单词都被转换为小写，并且标点符号已经被移除）。
单词频率统计不正确，可能是因为每个单词只出现了一次，而TF-IDF算法通常会忽略那些在整个语料库中仅出现一次的词汇。
分词后的结果是单个字符，而不是有意义的词语。

为了确保TF-IDF值可以正常计算，请尝试以下步骤：

**步骤1：**检查分词结果，确认它们是否是完整的词语，如果不是，需要调整分词器设置或者使用其他的分词方法。

**步骤2：**在构建TfidfVectorizer时，设置参数stop_words为None，以便不忽略任何单词。同时，可以设置min_df参数为一个适当的值（例如5），这样可以排除那些在整个语料库中只出现少数几次的词汇。

下面是修改后的代码：

import re from sklearn.feature_extraction.text import TfidfVectorizer # 定义文档集合 documents = [] with open('D:\\用户-\\Downloads\\分词结果.txt', 'r', encoding='utf-8') as file: # 逐行读取文件内容并添加到documents列表中 for line in file: # 去掉多余的空格和换行符 documents.append(re.sub(r'\s+', ' ', line.strip())) # 创建TfidfVectorizer对象 vectorizer = TfidfVectorizer(stop_words=None, min_df=5) # 计算TF-IDF值 tfidf_matrix = vectorizer.fit_transform(documents) # 获取词语列表 feature_names = vectorizer.get_feature_names() # 打印每个词语的TF-IDF值 for i in range(len(documents)): print("Document", i+1) for j in range(len(feature_names)): print(feature_names[j], ":", tfidf_matrix[i, j])

在这个例子中，我们使用了正则表达式re.sub(r'\s+', ' ', line.strip())来替换连续的空白字符为单个空格，以确保词语不会因为额外的空格而被分开。同时，我们将min_df设置为5，这意味着只有在一个文档集中至少出现5次的词语才会被考虑在内。

执行这个修改后的代码后，你应该能看到非零的TF-IDF值。如果你仍然遇到问题，请提供分词结果样本，我会进一步分析。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

用python实现tf-idf值计算相关问题 python 自然语言处理
2022-04-19 20:14

回答 1 已采纳建议把代码上传上来，而不是发个截图。不然没人看的。
求TF-IDF改进算法（python语言） python 有问必答算法
2021-08-16 11:27

回答 3 已采纳参考一下：一文看懂 TF-IDF (概念图解+4大变种+发展历史) 简单来说，向量空间模型就是希望把查询关键字和文档都表达成向量，然后利用向量之间的运算来进一步表达向量间的关系。比如，一个比
TF-IDF特征选取和划分数据集 python
2023-02-10 22:12

回答 2 已采纳首先，我们需要把文本数据处理为特征矩阵。这可以使用sklearn库中的CountVectorizer和TfidfTransformer实现： # 实例化CountVectorizer vectoriz
【NLP入门教程】十一、词袋模型与TF-IDF
2023-06-23 10:00

晨星同行的博客当一个词在某个文档中频繁出现（高TF值），并且在其他文档中很少出现（低IDF值）时，它往往具有较高的TF-IDF值，被认为是重要的关键词。可以看到，TF-IDF向量中的每个维度表示对应词汇的重要性。
在 TF-IDF 特征提取的基础上对模型建立与评估 python 逻辑回归
2023-02-11 22:48

回答 4 已采纳 import numpy as np import pandas as pd import time import jieba import re import string import pick
用VSCODE搭建 ESP-IDF 开发环境学个hello_world，到这怎么都做不下去，谁知道为什么？ python vscode 单片机
2021-10-24 19:13

回答 1 已采纳这个方法似乎过时了，VSCode里直接搜索ESP的插件即可。
在VScode上使用ESP-IDF的时候build project遇到问题 python 有问必答
2021-04-29 10:02

回答 6 已采纳报错是叫你看日志信息：C:/Users/14337/Desktop/esp32test/blink/build/CMakeFiles/CMakeOutput.log
基于大数据机器学习TF-IDF 算法+SnowNLP的智慧旅游数据分析可视化推荐系统
2024-01-03 19:47

星川皆无恙的博客基于机器学习TF-IDF 算法SnowNLP大数据的智慧旅游数据分析可视化推荐系统通过数据采集、数据清洗、数据分析、数据可视化的技术，对景区数据进行爬取和收集。以旅游景点数据为基础分析景区热度，挖掘客流量、景区评价...
ESP-IDF写esp32延时函数错误单片机物联网
2023-03-16 18:53

回答 3 已采纳参考GPT和自己的思路：根据代码看，您的延时函数似乎存在以下几个问题：没有对变量n进行初始化，导致程序无法正常工作；在do-while循环中使用了timer_get_counter_value(
在编译esp32时出现cmake无法读取文件的问题，所用框架为esp-idf c语言 iot 有问必答
2021-10-30 19:12

回答 2 已采纳在esp-idf\components\mbedtls\esp_crt_bundle下边找到“cacrt_all.pem”这个文件，搜索"EC-ACC"，删除“EC-ACC”和"END CERTIFI
LDA模型运行时报错，如何解决？(语言-python) nlp python 有问必答自然语言处理
2022-03-08 09:36

回答 2 已采纳可能是路径中包含中文，在操作文件的过程中会因为中文字符的原因导致无法找到正常的路径，因此会出现 Users\ + xe6…那些报错。
人工智能 -- NLP 关键词提取：TF-IDF算法和 TextRank算法
2019-11-30 18:11

Acegem的博客 人工智能 – NLP 关键词提取：TF-IDF 和 TextRank算法 1.基于TF-IDF算法进行关键词抽取 from jieba import analyse # 引入TF-IDF关键词抽取接口 tfidf = analyse.extract_tags # 原始文本 text = "\u3000\u...
VSCODE输出结果乱码如何解决？ ide python
2019-08-02 17:05

回答 3 已采纳 https://www.cnblogs.com/bestcode/p/9820744.html
基于Python的TF-IDF矩阵人工智能实验
2023-02-05 10:36

biyezuopinvip的博客之间的Lp距离，公式内的l表示向量的维度。将两个向量各个维度对应的数值相减后求q次方，再把各个维度的结果加和，最后再开p次方根，就...人工智能实验TF-IDF矩阵 1。一、 TF-IDF矩阵表示 1。人工智能实验TF-IDF矩阵。
TF-IDF算法详解与实践
2021-12-01 13:31

Litra LIN的博客文章目录TF-IDF算法1、TF-IDF算法介绍2、TF-IDF的应用3、怎么使用TF-IDF3.1 sklearn实现TF-IDF算法3.2 参数介绍4、TF-IDF的不足 1、TF-IDF算法介绍 TF-IDF（term frequency-invers document frequency，词频-逆向...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月19日

悬赏问题

¥60 用继电器控制道闸开闸
¥15 化学制备羧甲纤维素钠与聚氯乙烯混合后，加水搅拌后为什么不成型。
¥15 grbl移动过程中，发送“!"停止，进入Hold状态，怎么解除？
¥15 wpf中自己实现sorting，每一次都是升序排列
¥15 odoo17中，产品分包路线如何设置？可从销售订单中直接触发采购订单及相关单据
¥15 请教下win10wx和麒麟wx无法互通俩者数据并不兼吗，如何解决？(标签-linux)
¥15 永劫无间游戏如何实现微加速或者说游戏优化（玩家）
¥15 knx的软件sdk库
¥15 用VBA将文件夹内的所有表格自动复制到一个表格的sheet1内，
¥15 帮找书和配套代码。。

打印出来的tf、idf值都是 0.0，怎么解决

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新