野原新之楠 2019-06-08 23:20 采纳率: 80%
浏览 325

TfidfVectorizer 将文本转化成特征矩阵时出错

tfidf_model = TfidfVectorizer(token_pattern=r"(?u)\b\w+\b").fit(data_str)


文本利用jieba 处理后
如果 data_str 的格式为[ ''原, '告', '是', '小', '明'] 这种格式训练后稀疏矩阵是
(0, 4283) 0.013385576960314166
(0, 4118) 0.024487404118148596
(0, 4115) 0.044871466466131216
(0, 4091) 0.05260258980967049
(0, 4031) 0.03945588013538316
(0, 4017) 0.08531558161465964
(0, 3991) 0.034670968713637056
(0, 3984) 0.0165039558650919
(0, 3958) 0.03580035417798314
(0, 3955) 0.023800468834682856
可以进行预测 准确在60%

但是加入如果 data_str 的格式为[ ''原告', '是', '小明']   这种格式训练后
稀疏矩阵成为

 (0, 1447)  1.0

(1, 2827) 1.0
(2, 14) 1.0
(4, 1900) 1.0
(5, 898) 1.0
(6, 3748) 1.0
(8, 3162) 1.0
(9, 1416) 1.0
(10, 3079) 1.0
(11, 2756) 1.0
(12, 2384) 1.0
准确率为0

请问这个原因是什么

  • 写回答

0条回答 默认 最新

    报告相同问题?

    悬赏问题

    • ¥30 这是哪个作者做的宝宝起名网站
    • ¥60 版本过低apk如何修改可以兼容新的安卓系统
    • ¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
    • ¥50 有数据,怎么建立模型求影响全要素生产率的因素
    • ¥50 有数据,怎么用matlab求全要素生产率
    • ¥15 TI的insta-spin例程
    • ¥15 完成下列问题完成下列问题
    • ¥15 C#算法问题, 不知道怎么处理这个数据的转换
    • ¥15 YoloV5 第三方库的版本对照问题
    • ¥15 请完成下列相关问题!