tfidf_model = TfidfVectorizer(token_pattern=r"(?u)\b\w+\b").fit(data_str)
文本利用jieba 处理后
如果 data_str 的格式为[ ''原, '告', '是', '小', '明'] 这种格式训练后稀疏矩阵是
(0, 4283) 0.013385576960314166
(0, 4118) 0.024487404118148596
(0, 4115) 0.044871466466131216
(0, 4091) 0.05260258980967049
(0, 4031) 0.03945588013538316
(0, 4017) 0.08531558161465964
(0, 3991) 0.034670968713637056
(0, 3984) 0.0165039558650919
(0, 3958) 0.03580035417798314
(0, 3955) 0.023800468834682856
可以进行预测 准确在60%
但是加入如果 data_str 的格式为[ ''原告', '是', '小明'] 这种格式训练后
稀疏矩阵成为
(0, 1447) 1.0
(1, 2827) 1.0
(2, 14) 1.0
(4, 1900) 1.0
(5, 898) 1.0
(6, 3748) 1.0
(8, 3162) 1.0
(9, 1416) 1.0
(10, 3079) 1.0
(11, 2756) 1.0
(12, 2384) 1.0
准确率为0
请问这个原因是什么