在SVM模型中使用递归特征消除法（RFE）筛选出的最优的特征并不符合期望

最近在做一个短文本分类（垃圾和非垃圾两类）的项目，样本数量大概几十万，分词后使用信息增益算法提取出了前3000条分数较高的特征作为分类的字典，但是感觉特征数量还是太多，训练速度太慢，且分类效果也没有很好（比不上简单的朴素贝叶斯）。
于是想到使用RFE算法进行降维。RFE算法的主要思想就是使用一个基模型（这里是S模型VM）来进行多轮训练，每轮训练后，根据每个特征的系数对特征打分，去掉得分最小的特征，然后用剩余的特征构建新的特征集，进行下一轮训练，直到所有的特征都遍历了。

然而，降维后，经交叉验证得到，最优的特征数量仅为27，且经RFE筛选出的前27个特征词也很奇怪，在字典中的排名普遍不是很靠前，在样本中的分布也看不出什么代表性（出现在10万条样本中的次数不多，且分布的倾向性也不高）。
如下图，第一张图是最优的27个特征在样本中的分布，第二张图是信息增益算法得到的字典中排名靠前的特征在样本中的分布。要说明的是，这两张图中的特征几乎不重合。
图片说明

可以看出，许多并不在最优特征中的特征在样本中的分布也非常具有倾向性，可是为什么却在SVM算法中的系数不大以至于被删除呢？

尽管这27个特征看上去特别不靠谱，但令人惊讶的是，仅使用它们训练SVM模型，其分类性能却非常优秀，甚至比3000条特征训练的模型还要好。

这让我非常不解，信息增益算法得到的字典中那么多评分很高的特征，为什么会是这27条评分并不高的特征是最优特征呢？
另外，为什么这27条出现次数如此之少的特征就可以达到比3000条特征还要好的分类性能呢？

若大家对此问题有什么见解，恳请指教！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
B�Z 2020-05-26 15:29
关注
这个疑惑要去看SVM算法的原理了，SVM中分类决策面是只关注分界线附近的“支持向量点”，这些点都是容易错分的，换句话说，如果连这些容易错分的点都能分对，远离分界面的点自然也不会分错，所以这27个词，应该是分界线附近最容易分错的“支持向量点”

解决 4
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

MATLAB2020b中，svmplot无法使用。 matlab 有问必答机器学习
2021-05-22 11:25

回答 3 已采纳从错误提示看，工具箱函数应该是全了，问题可能出现在参与画图的数据结构，特别检查一下绘图数据的维度是否匹配。
使用lr、xgboost或者svm模型，给定技能点和公司来预测薪资 python 回归机器学习
2023-01-03 17:14

回答 1 已采纳可以参考如下项目，是基于拉勾网的数据，构建的建模流程，其中的特征部分可以扩充，替换成你提到的技能点。技能点可以作为category变量，做一下编码。 https://github.com/MaxLy
如何将opencv中LBP 与 hog 特征融合到一起训练生成模型，通过模型查找图片中的物体并框出来 c++ 人工智能机器学习深度学习
2019-04-03 16:00

回答 3 已采纳嗯这个问题可以采用串联方式
SVM_RFE循环递归筛选特征
2019-12-04 16:13

本代码使用svm_RFE来循环递归式的对数据特征进行排序，从而筛选出有用的特征，同时可以看到特征排序，已经每次筛选出去的特征
机器学习中怎么使用保存的模型进行预测 python 数据挖掘机器学习深度学习神经网络
2019-09-02 17:37

回答 1 已采纳分割数据集到训练集和测试集 x_train, x_test, y_train, y_test = train_test_split(x, y) 你加载模型直接预测不需要对数据进行再
人工智能导论模型与算法书的课后题实在不会好商量支持向量机机器学习svm 分类边界错误率分离边界发生变化实现，考虑一个在二维特征空间中的二类分析问题，训练集包含八个样本其在二维空间中的分布如图人工智能机器学习
2022-05-19 10:12

回答 1 已采纳理解支持向量，bargin的含义就行，支持向量机的分类超平面只和支持向量样本有关
用python做SVM模型的分类结果，该怎么做误差分析呀 python 分类有问必答机器学习
2022-11-20 22:23

回答 1 已采纳你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答本次提问扣除的有问必答次数，已经为您补发到账户，我们后续会持续优化，扩大我们的服务范围，为您带来更好地服务。
Matlab实现基于SVM-RFE支持向量机递归特征消除的回归数据特征选择算法（Matlab完整程序和数据）
2023-07-30 17:15

基于SVM-RFE支持向量机递归特征消除的回归数据特征选择算法，输出为选择的特征序号（Matlab完整程序和数据） Chinese: Options：可用的选项即表示的涵义如下　-s svm类型：SVM设置类型(默认0) 　0 -- C-SVC 　1 --v...
如何构建SVM股票分析预测模型 python
2023-02-28 21:55

回答 3 已采纳该回答引用ChatGPT SVM (Support Vector Machine) 是一种用于分类和回归分析的机器学习算法，可以在金融领域中用于预测股票价格的上升或下降趋势。下面是使用 SVM 分析
SVM模型预测解决非线性数据的问题，是把数据转化成线性了吗 matlab
2022-05-28 16:12

回答 2 已采纳 SVM模型预测解决非线性数据的问题，是通过核函数将非线性数据全部转化成更高维的数据，在更高维度的空间中，使得这些更高维的数据是可以进行线性分类的，从而在实际分类中，其分类原理是首先需要对原始数据进行核
使用SVM对手写体数字图片分类，python报错 python 机器学习
2022-11-11 15:16

回答 1 已采纳参考：使用svm对手写体数字图片进行分类_Walt_像道光的博客-CSDN博客 import pandas as pdfrom sklea
机器学习-特征选择：如何使用递归特征消除算法自动筛选出最优特征？
2023-08-14 21:51

笑不语的博客特征选择在机器学习和数据挖掘任务中扮演着重要的角色，能够提高模型性能、减少计算开销，并增强模型的可解释性。通过合理选择合适的特征选择方法，可以进一步优化实际应用中的模型训练和预测效果
在Matlab2021A，SVM做测试集SVM预测结果对比(RBF核函数时，提示错误使用 plot 向量长度必须相同。不知道该怎么该，希望能解决一下 c++ matlab 支持向量机有问必答
2021-11-10 10:33

回答 1 已采纳你好，你的从2开始了，test_label的长度和predict_label_2应该是相等的。所以建议71改成 plot(1:length(test_label), predict_label_2,'
基于支持向量机递归特征消除(SVM-RFE)的回归数据特征选择算法，输出为选择的特征序号（Matlab完整程序和数据）
2023-07-30 17:07

Matlab基于支持向量机递归特征消除(SVM_RFE)的回归数据特征选择算法，matlab代码，输出为选择的特征序号（Matlab完整程序和数据） Matlab基于支持向量机递归特征消除(SVM_RFE)的回归数据特征选择算法，matlab代码，...
ML之FS之RFE：RFE递归特征消除算法的简介、代码实现、案例应用之详细攻略
2023-04-24 23:48

一个处女座的程序猿的博客 ML之FS之RFE：RFE递归特征消除算法的简介、代码实现、案例应用之详细攻略目录 RFE递归特征消除算法的简介 RFE递归特征消除算法的代码实现 RFE递归特征消除算法的案例应用 RFE递归特征消除算法的简介 RFE...
没有解决我的问题, 去提问

悬赏问题

¥15 逻辑谓词和消解原理的运用
¥15 三菱伺服电机按启动按钮有使能但不动作
¥15 js，页面2返回页面1时定位进入的设备
¥200 关于#c++#的问题，请各位专家解答！网站的邀请码
¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
¥15 （希望可以解决问题）ma和mb文件无法正常打开，打开后是空白，但是有正常内存占用，但可以在打开Maya应用程序后打开场景ma和mb格式。
¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝
¥20 腾讯企业邮箱邮件可以恢复么
¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗？
¥15 错误 LNK2001 无法解析的外部符号