随机森林特征排序为什么输出全是0

随机森林想做特征重要性排序，为什么输出全是0？求解
源码：
import pandas as pd
import numpy as np
df = pd.read_csv('chaobaihe-train.csv', header = None)
df.columns = ['SITE', 'year' ,'DO', 'KMnO4' ,'BOD5', 'NH3-N' ,'COD' ,'TN', 'TP', 'Cu' ,'Zn', 'F' ,'S']

print(df.head(5))
set(df['SITE' ])
print(df.shape)
df.isna().sum()
import numpy as np
np.unique(df['SITE'])
print(df.info())
df.describe()
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
x = df.iloc[:, 2:].values
y = df.iloc[:, 2:].values
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2, random_state = 0)
feat_labels = df.columns[2:]
forest = RandomForestClassifier(n_estimators=10000, random_state=0, n_jobs=-1,max_depth=3)
forest.fit(x_train.astype('int'), y_train.astype('int'))
score = forest.score(x_test.astype('int'), y_test.astype('int'))
forest.feature_importances_
importances = forest.feature_importances_
indices = np.argsort(importances)[::-1]
for f in range(x_train.shape[1]):
print("%2d) %-*s %f" %
(f + 1, 30, feat_labels[indices[f]], importances[indices[f]]))

得到结果如下：
SITE year DO KMnO4 BOD5 NH3-N COD TN TP Cu Zn F S
0 1 2016 0.628387 0.797494 0.968553 0.993504 0.839053 0.958378 0.984030 0.892423 0.817577 0.635799 0.939799
1 1 2017 0.651026 0.764411 0.943396 0.992423 0.823331 0.947680 0.982890 0.975712 0.895503 0.637449 0.904404
2 1 2018 0.582991 0.707268 0.923270 0.991816 0.834320 0.925946 0.985741 0.963803 0.964572 0.669967 0.975474
3 1 2019 0.544282 0.737343 0.959120 0.993606 0.810651 0.935045 0.992015 0.970391 0.988439 0.669190 0.974359
4 1 2020 0.645161 0.759398 0.930818 0.993350 0.771767 0.956847 0.994297 0.963803 0.990055 0.664337 0.977703
(87, 13)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 87 entries, 0 to 86
Data columns (total 13 columns):

Column Non-Null Count Dtype

0 SITE 87 non-null int64
1 year 87 non-null int64
2 DO 87 non-null float64
3 KMnO4 87 non-null float64
4 BOD5 87 non-null float64
5 NH3-N 87 non-null float64
6 COD 87 non-null float64
7 TN 87 non-null float64
8 TP 87 non-null float64
9 Cu 87 non-null float64
10 Zn 87 non-null float64
11 F 87 non-null float64
12 S 87 non-null float64
dtypes: float64(11), int64(2)
memory usage: 9.0 KB
None

S 0.000000
F 0.000000
Zn 0.000000
Cu 0.000000
TP 0.000000
TN 0.000000
COD 0.000000
NH3-N 0.000000
BOD5 0.000000
KMnO4 0.000000
DO 0.000000

修改forest.fit(x_train, y_train)
score = forest.score(x_test, y_test)
后也报错发生异常: ValueError
Unknown label type: 'continuous-multioutput'

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
侯小啾 Python领域优质创作者 2022-09-15 15:59
关注
可以看到，你的数据都是小于1的浮点小数。
但是这里不应该再将numpy数组中的数值类型都转化为整数型。
不然你的数据就只剩0了。数据全为0，重要性当然也就没法研究了。

forest.fit(x_train.astype('int'), y_train.astype('int')) score = forest.score(x_test.astype('int'), y_test.astype('int'))

如有帮助还请采纳。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

随机森林特征排序为什么输出全是0 python 随机森林
2022-09-15 15:36

回答 2 已采纳可以看到，你的数据都是小于1的浮点小数。但是这里不应该再将numpy数组中的数值类型都转化为整数型。不然你的数据就只剩0了。数据全为0，重要性当然也就没法研究了。 forest.fit(x_train
Matlab随机森林预测模型输出权重问题 matlab 有问必答随机森林
2021-12-29 01:07

回答 1 已采纳你好，一般是输出重要性指标，比如你训练X和Y TreeNumber = 50; % 50棵树 minleafNumber = 2; % 2叶 b = TreeBagger(TreeNumber,X,Y
R语言回归树/袋装树/随机森林预测 r语言随机森林
2023-02-04 15:22

回答 3 已采纳请参考： # 加载数据 data <- read.csv("data.csv") # 将前 90 个观察值分配给训练集，其余4个观察值分配给评估集 trainIndex <- 1:90
【零基础学机器学习 10】随机森林算法最佳指南以及代码实战
2023-07-10 17:08

程序员半夏的博客 随机森林算法是一种监督学习算法，广泛应用于机器学习中的分类和回归问题。我们知道，森林由许多树组成，树越多，它就越强大。同样，随机森林算法中树的数量越多，它的准确性和问题解决能力就越高。
随机森林在训练+验证组（交叉验证）ROC是1 r语言机器学习随机森林
2023-01-13 14:20

回答 1 已采纳 ROC曲线的面积取值范围是0到1，而AUC值为1表示模型完全可以将正样本和负样本区分开来，这个模型性能非常好。在交叉验证中，ROC面积为1可能是由于样本分布导致的，比如说训练集中正样本和负样本分布比例
随机森林比xgb性能好 r语言决策树随机森林
2023-01-15 11:01

回答 3 已采纳望采纳！！！点击回答右侧采纳即可！！可能是样本量太少导致的，因为样本量越少，模型的泛化能力越差，容易出现过拟合现象。另外，数据集的误差也可能是原因之一，因为误差越大，模型的泛化能力也会受到影响。要让X
机器学习随机森林做特征选择时报编码错误 python 机器学习随机森林
2022-12-08 12:30

回答 1 已采纳可以考虑修改"E:\Anaconda3\lib\site-packages\joblib\externals\loky\backend\resource_tracker.py"这个本地文件在204行的
推荐系统——随机森林算法及其在推荐系统中的应用
2023-08-10 09:33

禅与计算机程序设计艺术的博客用户 u1 商品 i1 商品 i2 商品 i3 商品 i4 1 1 0 1 0 1 1 0 1 1 0 1 1 0 0 1 0 1 0 1 用户 q1 商品 i1 商品 i2 商品 i3 商品 i4 1 1 1 1 0 下面，我们将通过 Python 来实现一个简单的随机森林算法示例。首先，我们...
随机森林用于计算变量的重要性算预测还是分类功能呀？ python r语言随机森林
2022-04-22 19:17

回答 1 已采纳一般是用来评估，所以算是预测吧。主要就是信息，熵，决策树。理解了决策树的话，RF也好理解了https://zhuanlan.zhihu.com/p/54286825
随机森林的投票过程是怎么进行的
2018-05-01 01:51

回答 3 已采纳一般是调整分类权重，重新计算带阈值的多数投票，或者计算经验熵。具体在实践中一般是用梯度下降，经过n次迭代，找到最优的划分。本质上，随机森林是将结果平面网格化，每个决策树节点相当于把这个平面做一次二
c语言，已经初始化数组，为什么输出是随机值而不是0？ c语言
2022-10-08 12:40

回答 2 已采纳 19行传递array就可以啦printarray(array);
随机森林来进行特征选择（Python代码实现）
2019-09-08 19:20

Chelseady的博客当数据集的特征过多时，容易产生过拟合，可以用随机森林来在训练之后可以产生一个各个特征重要性的数据集，利用这个数据集，确定一个阈值，选出来对模型训练帮助最大的一些特征，筛选出重要变量后可以再训练模型；...
随机森林-matlab matlab 回归随机森林
2022-12-26 14:14

回答 2 已采纳望采纳 随机森林是一种机器学习算法，它的工作原理是建立许多决策树模型，然后将这些模型的预测结果结合起来得出最终的结果。由于随机森林使用了许多决策树模型，因此每个模型的结果可能会有所不同。解决这种情况的
机器学习(十八)：Bagging和随机森林
2023-08-09 10:32

算法小陈的博客本文深入探讨了集成学习及其在随机森林中的应用。对集成学习的基本概念、优势以及为何它有效做了阐述。随机森林，作为一个集成学习方法，与Bagging有紧密联系，其核心思想和实现过程均在文中进行了说明。还详细展示...
【R语言编程基础】【课后习题答案】【全】
2022-10-05 13:50

爱笑的冷面鬼的博客【R语言编程基础】【课后习题答案】【全】
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 9月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 9月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金10元 9月15日
展开全部

悬赏问题

¥15 2024-五一综合模拟赛
¥15 下图接收小电路，谁知道原理
¥15 装 pytorch 的时候出了好多问题，遇到这种情况怎么处理？
¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
¥15 手机接入宽带网线，如何释放宽带全部速度
¥30 关于#r语言#的问题：如何对R语言中mfgarch包中构建的garch-midas模型进行样本内长期波动率预测和样本外长期波动率预测
¥15 ETLCloud 处理json多层级问题
¥15 matlab中使用gurobi时报错
¥15 这个主板怎么能扩出一两个sata口
¥15 不是，这到底错哪儿了😭

随机森林特征排序为什么输出全是0

Column Non-Null Count Dtype

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新