随机森林的特征重要性全为零

用随机森林模型得到的特征重要性为什么全是零呢？有一部分有结果，有一部分没有（只改了data的来源。）谢谢大家~

% MATLAB随机森林回归代码
clc
clear
data = readtable('C:\Users\Administrator\Desktop\RFRtest.csv');
x = data(:,4:end-1);
y = data(:,end);
% 将数据集按30%分成训练集和测试集
cv = cvpartition(size(x,1),'HoldOut',0.3);
idx = cv.test;
Xtrain = x(~idx,:);
Ytrain = y(~idx,:);
Xtest = x(idx,:);
Ytest = y(idx,:);
% 使用TreeBagger函数训练随机森林分类器
ntrees = 200; % 树的数量
B = TreeBagger(ntrees,Xtrain,Ytrain,'Method','regression','OOBPrediction','On','OOBPredictorImportance','on');
Ypred =predict(B,Xtest);
Ytest = table2array(Ytest);
% 评估模型性能
rmse = sqrt(mean((Ytest - Ypred).^2));
r_squared = corrcoef(Ytest, Ypred).^2;
% 显示评估结果
disp(['均方根误差（RMSE）: ', num2str(rmse)]);
disp(['R²值: ', num2str(r_squared(1, 2))]);
importance = B.OOBPermutedPredictorDeltaError;  % 重要性
disp(['特征重要性：',num2str(importance)]);

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-03-29 11:00
关注
引自免费微信小程序：皆我百晓生

在 MATLAB 中，当 randomForest 函数预测随机森林模型时，若所有特征的重要性均为零，可能是因为以下几个原因导致的：

数据缺失：如果你的数据集中存在缺失值，那么 tree_bagger 函数可能会忽略某些特征的影响，因为这些特征没有对应的预测值。在这种情况下，你需要考虑填充缺失值或通过其他方法处理缺失值。

假设你有一个包含特征A、B、C的DataFrame，其中B和C分别有缺失值，且对决策树模型影响较小：

data = table([1, 'A', 'B', NaN, 'C'], [2, NaN, 'B', 'C', 'D'], [3, NaN, 'A', 'C', 'E'], ... [4, 'A', 'C', 'E', 'F'], [5, 'B', 'C', 'F', 'G']);

对于特征A，由于它是预测中的一个特征，tree_bagger 函数将保留它的信息，但忽略了B和C的预测值，导致其特征重要性为空。

然后，你可以进行以下操作来填充缺失值并调整特征重要性：

a. 删除包含缺失值的行： matlab data = removevars(data, {'A', 'C'});

b. 使用估计的填充值替换缺失值： matlab filled_data = fillmissing(data, data.A == 0 | data.C == 0); tree_bagger.fittedmodel(Categorical(filled_data), Xtrain, Ytrain, ... 'DataVariables', 'C', 'RegressionMethod', 'regress', 'OptimizeIntercept', 'off', ... 'Predictor Importance', 'off', 'SelectFeatures', 'off', 'ValidationSetFraction', 0.3);

c. 重新计算特征重要性： matlab importance = tree_bagger.OOBPermutationPredictorDeltaError(filled_data, 'AllAttributes'); selected_features = tree_bagger.SelectSubset(filled_data, [0 importance], 'WithinRow', true, 'TestSize', 0.3);

d. 更新预测结果与真实标签： matlab y_pred = predict(tree_bagger.fittedmodel(selected_features, Xtest), Xtest); Ytest = table2array(Ytest); % 将预测结果转换回DataFrame格式 r_squared = corrcoef(y_test, y_pred).^2; disp(['均方根误差（RMSE）: ', num2str(rmse)]); disp(['R²值: ', num2str(r_squared(1, 2))]);

注意：上述代码实现过程假设原始数据集不存在空值、缺失值已经被正确填充，而且预测结果的有效性已知。在实际应用中，你可能需要根据具体情况进行调整和优化，例如选择更有效的特征选择算法、调整参数设置等。

如果以上步骤都无法解决你的问题，建议尝试以下方法进一步分析和解决：

查看 tree_bagger 函数输出：确保在预测过程中并未出现错误信息，如 TypeError: no method named 'OOBPermutationPredictorDeltaError' for input arguments of type 'logical 或 'struct'。这通常表明你在调用 tree_bagger.fittedmodel 函数时传递了不正确的输入类型。

检查 tree_bagger.fittedmodel 的代码：确认 tree_bagger.fittedmodel 函数在计算特征重要性的过程中是否按照预期工作。例如，select_features 参数应接收一个布尔数组表示哪些特征需要被选中。如果出现了未被筛选掉的特征，tree_bagger.fittedmodel 可能会忽略它们并仅返回 selected_features 数组中包含的特征。

执行可视化操作：通过绘制特征重要性矩阵、平均绝对误差曲线等图形来更好地理解随机森林模型的工作原理。如果因子因变量（特征）间的相关性较差，可能存在特征间的非线性关系导致预测质量降低。

探索不同特征选择方法：考虑使用不同的特征选择算法，如信息增益、卡方检验、互信息等，并比较不同方法下的预测结果。不同的特征选择算法可能更适合你的具体问题域和数据分布。

检查预测准确性：使用准确率、精确率、召回率、F1分数等指标来评估预测的精度。观察 y_pred 在测试集上的表现是否符合实际情况，以判断模型的预测效果。

使用交叉验证：使用交叉验证（如 k-fold cross-validation）来评估随机森林模型的泛化能力。通过划分数据集为多个子集，每次迭代将数据集分为 k 个子集，每个子集再次作为验证集，其余子集作为训练集，这样可以有效评估模型在新数据上的泛化性能。

对比其他模型的预测结果：如果随机森林模型在小样本的情况下表现不佳，你可能需要考虑使用其他的机器学习模型，如支持向量机、逻辑回归、神经网络等，并对它们的表现进行对比分析，找出最适合你问题的模型。

以上策略结合运用可能会对解决随机森林特征重要性全为零的问题有所帮助，但具体的解决办法可能需要根据你所使用的特定工具和数据集特点进行调整。如有更详细的调试需求，欢迎随时提出，我会很乐意为你提供更详细的指导和代码示例。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

请问为什么结果全为0，逻辑有问题吗？怎么改？ c语言数据结构算法
2022-07-06 16:48

回答 1 已采纳 #include <stdio.h> #include <string.h> #include <queue> #define MAX 5 //20 using
Python数据分析与可视化实践 python 数据分析
2021-11-02 21:07

回答 1 已采纳 import numpy as np z＝np.ones((9，),dtype="int64") Z=z.reshape(3,3) Z[2][3]＝1 如果报错，可能我的是中文输入的。请改成英文。手
七巧问题 c语言程序已给出 mian函数问号处该怎么写呢图搜索算法数据结构深度优先
2022-06-09 17:05

回答 1 已采纳不就调用一下方法吗。 #include<stdio.h> #include<stdlib.h> #define MAXV 1000 //最大顶点数设为1000// typede
数据结构-期末复习重要知识点总结
2022-11-25 13:25

xxx_xiyuyu的博客本文用于期末数据结构救急，以及查询复习遗忘知识点，所有内容均已完善，如有不足敬请斧正。
数字旋转方阵的有条件输入 c语言数据结构有问必答算法
2021-09-24 16:27

回答 1 已采纳 Full(number,begin+1,size-2);---你这里size每次减去2，然后判断的时候用size%2==1每次减去2，那么每次递归的size要么一直是奇数，要么一直是偶数，没有实现奇偶
请问有人知道为啥我的数据全为空吗？ json python 开发语言有问必答
2021-08-07 14:25

回答 2 已采纳下面取其中一种就行,read_json是已经处理过的，直接可以to_excel。read_json指定orient='records',json数据源格式列名称不对，要统一一下来源： https
SVM算法分类出现了0标签 erlang 机器学习问答团队
2021-01-11 15:46

回答 2 已采纳 1.预测的标签本来就可以不在你设置的标签范围内。 2.你这些预测标签为0的样本有问题
pyspark分类算法之随机森林分类器模型实践【randomForestClassifier】
2019-06-20 19:55

Together_CZ的博客本文紧接上文的决策树分类器模型，实践的同样是分类算法模型，随机森林模型可以简单理解为集成的决策树模型，实质上随机森林模型的设计思想也的确如此，它采用了一种投票的思想来完成了模型最终的决策，将多个弱分类...
为什么红黑树中所有的叶子结点为NIL结点且颜色为黑,而不是NULL?NIL结点存在的意义是什么? 数据结构算法
2015-12-01 13:30

回答 2 已采纳是的，你的理解完全正确
C++实现矩阵类,函数参数float实在不会 c++ 数据结构
2021-09-17 23:56

回答 2 已采纳得先声明变量才行；RMatrix mt(rw,rc);mt.SetElem(0,0,1.1); 你的代码错误太多了。代码修改如下： #include <iostream> using
Python 在处理DataFrame的时候，如何删除数据为0的列 python
2022-03-24 18:04

回答 1 已采纳 (df.T[(df!=0).all()]).T 删除数据全为0的列，望采纳
数据结构与算法知识点总结
2023-12-15 22:15

想要打 Acm 的小周同学呀的博客此算法是双层循环，外层循环控制次数，一共要归并n个顶点，因此要循环n-1次，内层并列两个循环，每个循环负责遍历一个数组，其时间复杂度为o（n），因此此算法的时间复杂度为O（n2），时间复杂度只与顶点有关，...
2021年专插本考生 5万字精心整理计算机基础与数据结构笔记建议直接收藏
2021-04-11 21:53

好运haoyun的博客有钱还是建议直接培训班，然后在百度文库或CSDN找C语言的题来刷，做完题复盘答案，这点很重要，为什么错，哪一点容易被坑，C语言的题目和数据结构的题目在考试分布可能就是9：1吧，数据结构刷不刷题都无所谓，今年...
sklearn数据集、转化器与估计器、k-近邻算法、朴素贝叶斯、决策树、随机森林
2020-11-18 10:15

Timing_xuyou的博客一.sklearn数据集 1.sklearn数据集划分训练集：测试集=7:3或者8:2或者75%：25%（取75%：25%）训练数据：用于训练，构建模型。测试数据：在模型检验时使用，用于评估模型是否有效。 2.API sklearn.model_selection...
考研数据结构重要知识点
2023-12-01 17:19

柒-寒的博客：此算法是双层循环，外层循环控制次数，一共要归并n个顶点，因此要循环n-1次，内层并列两个循环，每个循环负责遍历一个数组，其时间复杂度为o（n），因此此算法的时间复杂度为O（n2），时间复杂度只与顶点有关，与...
肝下十万字的《数据结构考研》笔记，你对数据结构理解水平将从入门到入魔❤️
2023-06-26 14:54

luo an的博客相关术语：数据、数据元素、数据对象、数据类型和数据结构。数据(data)是对客观事物的符号表示，它能被计算机识别、存储和加工处理，它是计算机程序加工的“原料”。例如，一个代数方程求解程序所用到的...
全国大学生数据统计与分析竞赛2021年【本科组】-B题：基于统计分析与随机森林的用户消费行为价值分析（附优秀论文级R语言代码实现）
2023-06-23 00:15

格图素书的博客因此，数据的清洗十分关键，包括了表的合并，格式的标准化、异常数据的。宁、长春、泉州、常州、南通、嘉兴、中山、台州、厦门、哈尔滨、石家庄、贵阳、徐州、兰州、绍兴、烟台、太原、大连、无锡、成都、南京、昆明...
数据结构（完结）
2021-09-18 22:56

工具人的博客 3.算法特征：有穷性，确定性，可行性，输入，输出；算法目标：正确性，可读性，健壮性，效率与低存储量需求 4.效率度量：时间复杂度与空间复杂度第二章线性表 1. 线性表的定义与基本操作 1.1 概念定义：由相同...
数据结构与算法总结（下）
2020-05-18 10:05

愷訫的博客开发工具与关键技术：总结作者：Mr_恺撰写时间：2020.5.16 5.0：数组数组的基本操作主要包括：访问和修改所谓数组，是有序的元素序列。 3、二维数组理解：一维数组的每个元素都是一维数组。 4、矩阵： ...
【保研面试】数据结构
2022-09-29 23:06

rellvera的博客一些数据结构相关的问题，以作保研面试之用
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月29日

悬赏问题

¥15 office打开卡退（新电脑重装office系统后）
¥300 FLUENT 火箭发动机燃烧EDC仿真
¥15 【Hadoop 问题】Hadoop编译所遇问题hadoop-common: make failed with error code 2
¥15 vb6.0+webbrowser无法加载某个网页求解
¥15 RPA财务机器人采购付款流程
¥15 计算机图形多边形及三次样条曲线绘制
¥15 根据protues画的图用keil写程序
¥200 如何使用postGis实现最短领规划？
¥15 pyinstaller打包错误
¥20 cesm的气溶胶排放文件

随机森林的特征重要性全为零

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新