python+机器学习情感分析:为什么取高信息量特征之后,算法的准确率反而比没取之前的低? 5C

代码参考http://f.dataguru.cn/thread-713072-1-1.html

使用卡方统计对单个词、双词、单双词配合特征计算信息量后,选取高信息量的特征进行训练,但是训练出来的准确率比没统计之前的还要低,这是为啥??

1个回答

一个是特征选的不够好。还有就是训练数据和测试数据差别很大。模型不够准确

lulunyaya
lulunyaya 数据集分成训练集和测试集前有进行随机化,而且都是从京东爬下来的同一件商品的评论数据,应该不存在差别很大的问题呀
2 年多之前 回复
lulunyaya
lulunyaya 特征的话,n-gram特征方法别人用也没见出现我这种问题;
2 年多之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问
相关内容推荐