Python 随机森林画图：把随机森林中的属性重要程度排序并画出影响比重图

最近在做一个数据挖掘的工作，因为对这个还不是很了解，所以代码是从github上来的，然后这边还想把X的属性按影响程度从大到小排序，并且画一个表，有没有大佬能帮帮我啊啊啊

代码（github上下载来的）：

import pandas as pd
import numpy as np
import random
import math
import collections
from sklearn.externals.joblib import Parallel, delayed

class Tree(object):
"""定义一棵决策树"""
def __init__(self):
self.split_feature = None
self.split_value = None
self.leaf_value = None
self.tree_left = None
self.tree_right = None

def calc_predict_value(self, dataset):
"""通过递归决策树找到样本所属叶子节点"""
if self.leaf_value is not None:
return self.leaf_value
elif dataset[self.split_feature] <= self.split_value:
return self.tree_left.calc_predict_value(dataset)
else:
return self.tree_right.calc_predict_value(dataset)

def describe_tree(self):
"""以json形式打印决策树，方便查看树结构"""
if not self.tree_left and not self.tree_right:
leaf_info = "{leaf_value:" + str(self.leaf_value) + "}"
return leaf_info
left_info = self.tree_left.describe_tree()
right_info = self.tree_right.describe_tree()
tree_structure = "{split_feature:" + str(self.split_feature) + \
",split_value:" + str(self.split_value) + \
",left_tree:" + left_info + \
",right_tree:" + right_info + "}"
return tree_structure

class RandomForestClassifier(object):
def __init__(self, n_estimators=10, max_depth=-1, min_samples_split=2, min_samples_leaf=1,
min_split_gain=0.0, colsample_bytree=None, subsample=0.8, random_state=None):
"""
随机森林参数
----------
n_estimators: 树数量
max_depth: 树深度，-1表示不限制深度
min_samples_split: 节点分裂所需的最小样本数量，小于该值节点终止分裂
min_samples_leaf: 叶子节点最少样本数量，小于该值叶子被合并
min_split_gain: 分裂所需的最小增益，小于该值节点终止分裂
colsample_bytree: 列采样设置，可取[sqrt、log2]。sqrt表示随机选择sqrt(n_features)个特征，
log2表示随机选择log(n_features)个特征，设置为其他则不进行列采样
subsample: 行采样比例
random_state: 随机种子，设置之后每次生成的n_estimators个样本集不会变，确保实验可重复
"""
self.n_estimators = n_estimators
self.max_depth = max_depth if max_depth != -1 else float('inf')
self.min_samples_split = min_samples_split
self.min_samples_leaf = min_samples_leaf
self.min_split_gain = min_split_gain
self.colsample_bytree = colsample_bytree
self.subsample = subsample
self.random_state = random_state
self.trees = None
self.feature_importances_ = dict()

def fit(self, dataset, targets):
"""模型训练入口"""
assert targets.unique().__len__() == 2, "There must be two class for targets!"
targets = targets.to_frame(name='分类')

if self.random_state:
random.seed(self.random_state)
random_state_stages = random.sample(range(self.n_estimators), self.n_estimators)

# 两种列采样方式
if self.colsample_bytree == "sqrt":
self.colsample_bytree = int(len(dataset.columns) ** 0.5)
elif self.colsample_bytree == "log2":
self.colsample_bytree = int(math.log(len(dataset.columns)))
else:
self.colsample_bytree = len(dataset.columns)

# 并行建立多棵决策树
self.trees = Parallel(n_jobs=-1, verbose=0, backend="threading")(
delayed(self._parallel_build_trees)(dataset, targets, random_state)
for random_state in random_state_stages)

def _parallel_build_trees(self, dataset, targets, random_state):
"""bootstrap有放回抽样生成训练样本集，建立决策树"""
subcol_index = random.sample(dataset.columns.tolist(), self.colsample_bytree)
dataset_stage = dataset.sample(n=int(self.subsample * len(dataset)), replace=True,
random_state=random_state).reset_index(drop=True)
dataset_stage = dataset_stage.loc[:, subcol_index]
targets_stage = targets.sample(n=int(self.subsample * len(dataset)), replace=True,
random_state=random_state).reset_index(drop=True)

tree = self._build_single_tree(dataset_stage, targets_stage, depth=0)
print(tree.describe_tree())
return tree

def _build_single_tree(self, dataset, targets, depth):
"""递归建立决策树"""
# 如果该节点的类别全都一样/样本小于分裂所需最小样本数量，则选取出现次数最多的类别。终止分裂
if len(targets['分类'].unique()) <= 1 or dataset.__len__() <= self.min_samples_split:
tree = Tree()
tree.leaf_value = self.calc_leaf_value(targets['分类'])
return tree

if depth < self.max_depth:
best_split_feature, best_split_value, best_split_gain = self.choose_best_feature(dataset, targets)
left_dataset, right_dataset, left_targets, right_targets = \
self.split_dataset(dataset, targets, best_split_feature, best_split_value)

tree = Tree()
# 如果父节点分裂后，左叶子节点/右叶子节点样本小于设置的叶子节点最小样本数量，则该父节点终止分裂
if left_dataset.__len__() <= self.min_samples_leaf or \
right_dataset.__len__() <= self.min_samples_leaf or \
best_split_gain <= self.min_split_gain:
tree.leaf_value = self.calc_leaf_value(targets['分类'])
return tree
else:
# 如果分裂的时候用到该特征，则该特征的importance加1
self.feature_importances_[best_split_feature] = \
self.feature_importances_.get(best_split_feature, 0) + 1

tree.split_feature = best_split_feature
tree.split_value = best_split_value
tree.tree_left = self._build_single_tree(left_dataset, left_targets, depth+1)
tree.tree_right = self._build_single_tree(right_dataset, right_targets, depth+1)
return tree
# 如果树的深度超过预设值，则终止分裂
else:
tree = Tree()
tree.leaf_value = self.calc_leaf_value(targets['分类'])
return tree

def choose_best_feature(self, dataset, targets):
"""寻找最好的数据集划分方式，找到最优分裂特征、分裂阈值、分裂增益"""
best_split_gain = 1
best_split_feature = None
best_split_value = None

for feature in dataset.columns:
if dataset[feature].unique().__len__() <= 100:
unique_values = sorted(dataset[feature].unique().tolist())
# 如果该维度特征取值太多，则选择100个百分位值作为待选分裂阈值
else:
unique_values = np.unique([np.percentile(dataset[feature], x)
for x in np.linspace(0, 100, 100)])

# 对可能的分裂阈值求分裂增益，选取增益最大的阈值
for split_value in unique_values:
left_targets = targets[dataset[feature] <= split_value]
right_targets = targets[dataset[feature] > split_value]
split_gain = self.calc_gini(left_targets['分类'], right_targets['分类'])

if split_gain < best_split_gain:
best_split_feature = feature
best_split_value = split_value
best_split_gain = split_gain
return best_split_feature, best_split_value, best_split_gain

@staticmethod
def calc_leaf_value(targets):
"""选择样本中出现次数最多的类别作为叶子节点取值"""
label_counts = collections.Counter(targets)
major_label = max(zip(label_counts.values(), label_counts.keys()))
return major_label[1]

@staticmethod
def calc_gini(left_targets, right_targets):
"""分类树采用基尼指数作为指标来选择最优分裂点"""
split_gain = 0
for targets in [left_targets, right_targets]:
gini = 1
# 统计每个类别有多少样本，然后计算gini
label_counts = collections.Counter(targets)
for key in label_counts:
prob = label_counts[key] * 1.0 / len(targets)
gini -= prob ** 2
split_gain += len(targets) * 1.0 / (len(left_targets) + len(right_targets)) * gini
return split_gain

@staticmethod
def split_dataset(dataset, targets, split_feature, split_value):
"""根据特征和阈值将样本划分成左右两份，左边小于等于阈值，右边大于阈值"""
left_dataset = dataset[dataset[split_feature] <= split_value]
left_targets = targets[dataset[split_feature] <= split_value]
right_dataset = dataset[dataset[split_feature] > split_value]
right_targets = targets[dataset[split_feature] > split_value]
return left_dataset, right_dataset, left_targets, right_targets

def predict(self, dataset):
"""输入样本，预测所属类别"""
res = []
for _, row in dataset.iterrows():
pred_list = []
# 统计每棵树的预测结果，选取出现次数最多的结果作为最终类别
for tree in self.trees:
pred_list.append(tree.calc_predict_value(row))

pred_label_counts = collections.Counter(pred_list)
pred_label = max(zip(pred_label_counts.values(), pred_label_counts.keys()))
res.append(pred_label[1])
return np.array(res)

if __name__ == '__main__':
df = pd.read_csv("data s2.csv")
df = df[df['分类'].isin([1, 2])].sample(frac=1, random_state=66).reset_index(drop=True)
clf = RandomForestClassifier(n_estimators=5,
max_depth=5,
min_samples_split=6,
min_samples_leaf=2,
min_split_gain=0.0,
colsample_bytree="sqrt",
subsample=0.8,
random_state=66)
train_count = int(0.7 * len(df))
feature_list = ["性别", "年龄", "婚姻状况", "家庭年收入", "饮用频率",
"购买方式", "了解渠道", "敢于尝新", "饮用温度", "饮用类型",
"固定品牌"]
clf.fit(df.loc[:train_count, feature_list], df.loc[:train_count, '分类'])

from sklearn import metrics
print(metrics.accuracy_score(df.loc[:train_count, '分类'], clf.predict(df.loc[:train_count, feature_list])))
print(metrics.accuracy_score(df.loc[train_count:, '分类'], clf.predict(df.loc[train_count:, feature_list])))

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-孙老师 2021-04-17 11:13
关注
可以通过feature_importances_获取到特征重要性，然后排序、可视化等。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

Python 随机森林画图：把随机森林中的属性重要程度排序并画出影响比重图 python 有问必答
2021-04-17 10:02

回答 4 已采纳可以通过feature_importances_获取到特征重要性，然后排序、可视化等。
使用Python进行随机森林拟合报错：Input contains NaN, infinity or a value too large for dtype('float32'). python 人工智能随机森林
2021-11-01 17:08

回答 2 已采纳如果你确定数据没有空或者未定义，那就是太大了呗
随机森林用于计算变量的重要性算预测还是分类功能呀？ python r语言随机森林
2022-04-22 19:17

回答 1 已采纳一般是用来评估，所以算是预测吧。主要就是信息，熵，决策树。理解了决策树的话，RF也好理解了https://zhuanlan.zhihu.com/p/54286825
毕设论文数据分析记录-part3:各变量因子的相对贡献程度
2022-03-13 20:58

曦嘻喜喜的博客学习记录、多元线性、随机森林、偏最小二乘结构建模
随机森林分类器中不包含.score模块吗 python 机器学习随机森林
2022-09-26 15:29

回答 2 已采纳这里的参数给错了，n_estimators参数类型要求为int，但是你给的是一个NoneType，改成这样试试：clf = RandomForestClassifier(n_estimators=10
python 随机生成10个数并升序排序升序排序的那部分代码不太明白想知道是怎么实现的 python
2022-03-23 23:55

回答 2 已采纳【若能有所悟，望给个采纳，谢谢】1、enumerate：这个是与for循环配合实用，用于遍历数据对象（列表、元组或字符串均可）2、for i,j enumerate(x)这里的i=指的是数组的下标值，
随机森林；群体；重要性比较机器学习随机森林
2023-03-05 09:20

回答 8 已采纳 from sklearn.ensemble import RandomForestClassifier import numpy as np # 假设data为样本特征矩阵，labels为样本标签 #
机器学习实用代码汇总（你想要的这里都有）
2022-04-10 01:40

WX_ygg17634504536的博客机器学习实用代码汇总（你想...非常适合小白来学习和实践，在实践过程中找到你想要的某些功能，不断的复制粘贴就可以，有助于你早日成为CV工程师。一、数据导入 1.数据文件读取代码如下（示例）： #读取CSV文件 i
python 随机复制指定数量的图片到指定文件夹并重命名图片 python
2022-05-12 11:09

回答 3 已采纳添加这两行，具体位置看下面： print(VAL_TAR_PATH + f, ' 修改为 ' ,VAL_TAR_PATH + '/正式图片_' + f) # 根据这个看下输出
python—plt画图，图像并没有铺满整个屏满 python 数据分析
2022-02-04 22:22

回答 2 已采纳因为你plt.xlim和plt.ylim范围设得太大，坐标轴的数值范围是根据这个来的
python画图画一个图中的内容 python
2022-06-19 12:24

回答 2 已采纳 import turtle def main_(t, sPos): t.up() t.setpos(*sPos) t.pensize(2) cod = []
sklearn使用入门
2023-03-05 16:28

益生菌冻干粉的博客在高维数据中筛选出有用的变量，可以减小计算复杂度并提高模型的训练效率和准确率，这就是数据降维。数据降维是指采用某种映射方法，将原高维空间中的数据点映射到低维空间中，从而减少与任务无关的随机变量个数。常...
linux中安装好了python后无法使用python命令出现bash: python: command not found linux python 有问必答
2021-08-06 10:08

回答 2 已采纳提示未找到命令，说明你系统没有自带python，要不就是你自己手贱把python的环境变量配置删除了，我觉得这个应该不可能，你直接rpm -qa | grep python 就知道有没有了
逻辑回归【机器学习笔记简摘】
2021-10-26 15:41

数数chat的博客比如在评分卡制作时，不仅需要判断客户是否会违约，还需要给出确定的”信用分“，而这个信用分的计算就需要使用类概率计算出的对数几率，而决策树和随机森林这样的分类器，可以产出分类结果，却无法帮助我们计算分数...
对客户推荐产品模型+python代码
2015-10-23 14:53

weixin_30781775的博客 l 画图画出每个特征的基本统计图应用import matplotlib.pylab as pl 画图显示 l 关于特征值特别大的数据集；可能对结果产生权重的等级影响所以尽量将数据进行归一化特征值归一化的原因： 1；看数据范围看看...
没有解决我的问题, 去提问

悬赏问题

¥15 微带串馈天线阵列每个阵元宽度计算
¥15 keil的map文件中Image component sizes各项意思
¥30 BC260Y用MQTT向阿里云发布主题消息一直错误
¥20 求个正点原子stm32f407开发版的贪吃蛇游戏
¥15 划分vlan后，链路不通了？
¥20 求各位懂行的人，注册表能不能看到usb使用得具体信息，干了什么，传输了什么数据
¥15 Vue3 大型图片数据拖动排序
¥15 Centos / PETGEM
¥15 划分vlan后不通了
¥20 用雷电模拟器安装百达屋apk一直闪退

Python 随机森林画图：把随机森林中的属性重要程度排序并画出影响比重图

4条回答 默认 最新

悬赏问题

4条回答默认最新