TfidfVectorizer 将文本转化成特征矩阵时出错

tfidf_model = TfidfVectorizer(token_pattern=r"(?u)\b\w+\b").fit(data_str)

文本利用jieba 处理后
如果 data_str 的格式为[ ''原, '告', '是', '小', '明'] 这种格式训练后稀疏矩阵是
(0, 4283) 0.013385576960314166
(0, 4118) 0.024487404118148596
(0, 4115) 0.044871466466131216
(0, 4091) 0.05260258980967049
(0, 4031) 0.03945588013538316
(0, 4017) 0.08531558161465964
(0, 3991) 0.034670968713637056
(0, 3984) 0.0165039558650919
(0, 3958) 0.03580035417798314
(0, 3955) 0.023800468834682856
可以进行预测准确在60%

但是加入如果 data_str 的格式为[ ''原告', '是', '小明']   这种格式训练后
稀疏矩阵成为

 (0, 1447)  1.0

(1, 2827) 1.0
(2, 14) 1.0
(4, 1900) 1.0
(5, 898) 1.0
(6, 3748) 1.0
(8, 3162) 1.0
(9, 1416) 1.0
(10, 3079) 1.0
(11, 2756) 1.0
(12, 2384) 1.0
准确率为0

请问这个原因是什么

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

报告相同问题？

关注问题

如何将提取到的特征矩阵进行Kmeans的聚类操作 kmeans python 有问必答聚类
2022-04-07 11:20

回答 1 已采纳提供一个思路，多个矩阵你把他的维度reshape到一个一维的向量，这个一维度向量过一个函数得到某一个值，比如求和，比如求方差。这个函数需要你自己根据特征去设计。你得到每个矩阵的值，把所有值resha
怎么将Python文字转化成3X4的矩阵，排列？ list python
2022-11-10 04:32

回答 3 已采纳 c=0 for i in s: c+=1 print(i,end='') if c%3==0: print()
将邻接表转化为邻接矩阵 c# 有问必答
2021-06-20 21:06

回答 2 已采纳可以参考这篇文章，希望对你有帮助：邻接矩阵转换为邻接表；邻接表转换为邻接矩阵_Atlas！的博客-CSDN博客
机器学习（三） -- 特征工程（1）
2023-12-31 21:23

₫从心的博客 # 提取特征值，转化为二维矩阵 # 1、实例化转换器类 transfer = DictVectorizer(sparse=False) # 2、提取特征值 feature_data = transfer.fit_transform(data) print('二维矩阵特征值：\n', feature_data) print('...
文本矩阵的转换，希望能得到帮助 python
2022-08-22 15:32

回答 1 已采纳主对角线和副对角线都有，有用请点个采纳🤠 n = int(input("输入矩阵阶数:")) a = [] for i in range(n): l = [] number = i
如何将矩阵输出成单通道 matlab 有问必答
2021-07-17 17:00

回答 3 已采纳你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，目前超出我们的服务范围，暂时无法为您解答。首次提问人员可免费体验一次有问必答服务。目前首次提问的问题服务范围为：编程语言、Java开发、
如何根据特征矩阵和时间生成每个特征对应的时间序列呢（python） python 有问必答
2022-02-20 19:22

回答 2 已采纳请问有多少个特征？以及司机id是什么？
python 中文文本分类(fudan)
2024-01-02 11:28

可口可乐没有乐的博客上面的代码运行之后，会将训练集数据转换为TF-IDF词向量空间中的实例，保存在train_word_bag/tfdifspace.dat中，具体来说，这个文件里面有两个我们感兴趣的东西，一个是vocabulary，即词向量空间坐标，一个是tdm，即...
如何在python中将矩阵按列分割为数个矩阵 python
2021-03-23 21:41

回答 2 已采纳直接切片，或者用np.hsplit()函数，都可以吧。 >>> import numpy as np >>> a = np.random.random((5,2
使用C语言C++从一个文本文件导入字符串矩阵 c++ c语言有问必答
2022-04-28 15:49

回答 2 已采纳字符串以空格分隔的吗？可以逐行读取字符串，然后根据空格分隔出每一个元素就可以了。下面的例子是以1个或多个空格分割每行的字符串。data.txt文件： L1 L1L L1R L2 L2
matlab for循环后的数据导成矩阵 matlab 算法
2022-05-08 14:58

回答 1 已采纳 1 x 13 的矩阵吗？ DJ0 = zeros(13, 1); for i = 1 : 13 dj0 = ... DJ0(i) = dj0; end
【DL】第7章推荐表情符号
2022-09-23 10:13

Sonhhxg_柒的博客同样，对于文本，我们希望模型知道如果“爱”这个词出现在推文中的任何地方，“爱”将是一个很好的标签。然而，他们假设每个因素的贡献是相互独立的——所以在这种情况下，推文中的每个词对预测标签都有一定的影响，...
写一个函数将3*3的矩阵转置 c语言
2022-04-26 13:06

回答 3 已采纳我试了一下，这没啥问题，能正常运行：代码： #include <stdio.h> void trans(int (*s)[3], int x, int y); //定义转置函
机器学习基础（三）——KNN/朴素贝叶斯/交叉验证/网格搜索
2022-07-02 14:52

Bayesian小孙的博客（1）KNN概念：k个最近的邻居，即每个样本都可以用它最接近的k个邻居来代表。...如果邻近点恰巧是噪声，预测就会出错。K值减小就意味着整体模型变复杂,容易发生过拟合。如果选择较大K值，就相当于用较
中文分词和tfidf特征应用
2023-08-25 00:52

@kc++的博客 vectorizer.fit_transform(docs) # 打印特征名和TF-IDF矩阵 print(vectorizer.get_feature_names_out()) print(tfidf.toarray()) 通过中文分词和TF-IDF，你可以有效地将文本数据转换为机器可理解的数值型数据，进而...
没有解决我的问题, 去提问

悬赏问题

¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！

码龄粉丝数原力等级 --

TfidfVectorizer 将文本转化成特征矩阵时出错

0条回答默认最新

悬赏问题

TfidfVectorizer 将文本转化成特征矩阵时出错

0条回答 默认 最新

悬赏问题

0条回答默认最新