在SVM模型中使用递归特征消除法（RFE）筛选出的最优的特征并不符合期望

最近在做一个短文本分类（垃圾和非垃圾两类）的项目，样本数量大概几十万，分词后使用信息增益算法提取出了前3000条分数较高的特征作为分类的字典，但是感觉特征数量还是太多，训练速度太慢，且分类效果也没有很好（比不上简单的朴素贝叶斯）。
于是想到使用RFE算法进行降维。RFE算法的主要思想就是使用一个基模型（这里是S模型VM）来进行多轮训练，每轮训练后，根据每个特征的系数对特征打分，去掉得分最小的特征，然后用剩余的特征构建新的特征集，进行下一轮训练，直到所有的特征都遍历了。

然而，降维后，经交叉验证得到，最优的特征数量仅为27，且经RFE筛选出的前27个特征词也很奇怪，在字典中的排名普遍不是很靠前，在样本中的分布也看不出什么代表性（出现在10万条样本中的次数不多，且分布的倾向性也不高）。
如下图，第一张图是最优的27个特征在样本中的分布，第二张图是信息增益算法得到的字典中排名靠前的特征在样本中的分布。要说明的是，这两张图中的特征几乎不重合。
图片说明

可以看出，许多并不在最优特征中的特征在样本中的分布也非常具有倾向性，可是为什么却在SVM算法中的系数不大以至于被删除呢？

尽管这27个特征看上去特别不靠谱，但令人惊讶的是，仅使用它们训练SVM模型，其分类性能却非常优秀，甚至比3000条特征训练的模型还要好。

这让我非常不解，信息增益算法得到的字典中那么多评分很高的特征，为什么会是这27条评分并不高的特征是最优特征呢？
另外，为什么这27条出现次数如此之少的特征就可以达到比3000条特征还要好的分类性能呢？

若大家对此问题有什么见解，恳请指教！

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
B�Z 2020-05-26 15:29
关注
这个疑惑要去看SVM算法的原理了，SVM中分类决策面是只关注分界线附近的“支持向量点”，这些点都是容易错分的，换句话说，如果连这些容易错分的点都能分对，远离分界面的点自然也不会分错，所以这27个词，应该是分界线附近最容易分错的“支持向量点”

解决 4
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Matlab实现基于SVM-RFE支持向量机递归特征消除的回归数据特征选择算法（Matlab完整程序和数据）
2023-07-30 17:15

基于SVM-RFE支持向量机递归特征消除的回归数据特征选择算法，输出为选择的特征序号（Matlab完整程序和数据） Chinese: Options：可用的选项即表示的涵义如下　-s svm类型：SVM设置类型(默认0) 　0 -- C-SVC 　1 --v...
SVM_RFE循环递归筛选特征
2019-12-04 16:13

本代码使用svm_RFE来循环递归式的对数据特征进行排序，从而筛选出有用的特征，同时可以看到特征排序，已经每次筛选出去的特征
机器学习-特征选择：如何使用递归特征消除算法自动筛选出最优特征？
2023-08-14 21:51

笑不语的博客特征选择在机器学习和数据挖掘任务中扮演着重要的角色，能够提高模型性能、减少计算开销，并增强模型的可解释性。通过合理选择合适的特征选择方法，可以进一步优化实际应用中的模型训练和预测效果
基于支持向量机递归特征消除(SVM-RFE)的回归数据特征选择算法，输出为选择的特征序号（Matlab完整程序和数据）
2023-07-30 17:07

Matlab基于支持向量机递归特征消除(SVM_RFE)的回归数据特征选择算法，matlab代码，输出为选择的特征序号（Matlab完整程序和数据） Matlab基于支持向量机递归特征消除(SVM_RFE)的回归数据特征选择算法，matlab代码，...
digui.rar_recursive features_svm特征选择_特征选择 SVM_特征选择matlab_递归特征消除
2022-07-14 14:33

本资源包“digui.rar”聚焦于一种特征选择方法——递归特征消除（Recursive Feature Elimination, RFE），并特别针对支持向量机（Support Vector Machine, SVM）模型。递归特征消除是一种基于模型的特征选择技术，...
基于支持向量机递归特征消除(SVM-RFE)的分类特征选择算法，matlab代码，输出为选择的特征序号多特征输入单输出的二
2023-09-18 18:08

基于支持向量机递归特征消除(SVM_RFE)的分类特征选择算法，matlab代码，输出为选择的特征序号。多特征输入单输出的二分类及多分类模型。程序内注释详细，直接替换数据就可以用。程序语言为matlab，程序可出分类...
基于SVM-RFE与LSTM的多输入单输出回归预测模型实现 · 特征选择 v2.1
2025-09-01 20:47

内容概要：本文介绍了一种结合支持向量机-递归特征消除（SVM-RFE）与长短期记忆（LSTM）神经网络的多输入单输出回归预测模型，涵盖数据预处理、特征选择、模型构建、训练优化、性能评估及结果可视化全流程。通过SVM-...
Matlab版SVM-RFE回归特征筛选工具：含完整代码、示例数据与多组可视化结果
2026-04-26 02:00

提供一套开箱即用的Matlab实现方案，用于在回归任务中执行支持向量机递归特征消除（SVM-RFE）。程序自动迭代训练SVR模型（默认e-SVR，核函数为RBF），按特征权重逐步剔除冗余变量，最终输出保留的关键特征索引列表...
使用特征_R语言-使用caret包实现特征选择：递归特征消除(RFE)算法
2021-01-08 01:13

心纳天下的博客在caret（short for classification and regression training）包中有多个函数可以实现特征选择，总的分为封装法和过滤法。封装法，将特征选择过程...在caret包中，封装法有递归特征消除(recursive feature eliminat...
ML之FS之RFE：RFE递归特征消除算法的简介、代码实现、案例应用之详细攻略
2023-04-24 23:48

一个处女座的程序猿的博客 ML之FS之RFE：RFE递归特征消除算法的简介、代码实现、案例应用之详细攻略目录 RFE递归特征消除算法的简介 RFE递归特征消除算法的代码实现 RFE递归特征消除算法的案例应用 RFE递归特征消除算法的简介 RFE...
没有解决我的问题, 去提问

在SVM模型中使用递归特征消除法（RFE）筛选出的最优的特征并不符合期望

3条回答 默认 最新

3条回答默认最新