野原新之楠 2019-06-08 23:20 采纳率: 80%
浏览 325

TfidfVectorizer 将文本转化成特征矩阵时出错

tfidf_model = TfidfVectorizer(token_pattern=r"(?u)\b\w+\b").fit(data_str)


文本利用jieba 处理后
如果 data_str 的格式为[ ''原, '告', '是', '小', '明'] 这种格式训练后稀疏矩阵是
(0, 4283) 0.013385576960314166
(0, 4118) 0.024487404118148596
(0, 4115) 0.044871466466131216
(0, 4091) 0.05260258980967049
(0, 4031) 0.03945588013538316
(0, 4017) 0.08531558161465964
(0, 3991) 0.034670968713637056
(0, 3984) 0.0165039558650919
(0, 3958) 0.03580035417798314
(0, 3955) 0.023800468834682856
可以进行预测 准确在60%

但是加入如果 data_str 的格式为[ ''原告', '是', '小明']   这种格式训练后
稀疏矩阵成为

 (0, 1447)  1.0

(1, 2827) 1.0
(2, 14) 1.0
(4, 1900) 1.0
(5, 898) 1.0
(6, 3748) 1.0
(8, 3162) 1.0
(9, 1416) 1.0
(10, 3079) 1.0
(11, 2756) 1.0
(12, 2384) 1.0
准确率为0

请问这个原因是什么

  • 写回答

0条回答 默认 最新

    报告相同问题?

    悬赏问题

    • ¥100 有人会搭建GPT-J-6B框架吗?有偿
    • ¥15 求差集那个函数有问题,有无佬可以解决
    • ¥15 【提问】基于Invest的水源涵养
    • ¥20 微信网友居然可以通过vx号找到我绑的手机号
    • ¥15 寻一个支付宝扫码远程授权登录的软件助手app
    • ¥15 解riccati方程组
    • ¥15 display:none;样式在嵌套结构中的已设置了display样式的元素上不起作用?
    • ¥15 使用rabbitMQ 消息队列作为url源进行多线程爬取时,总有几个url没有处理的问题。
    • ¥15 Ubuntu在安装序列比对软件STAR时出现报错如何解决
    • ¥50 树莓派安卓APK系统签名