机器习随机森林调参为什么每次不一样

机器学习随机森林实现共享单车预测，超参数怎么寻找最优，我写了循环，把r2可视化，但是画出来的折线每次运行都不一样


```python

import csv
import numpy as np
import sklearn.utils as su
import sklearn.ensemble as se
import sklearn.metrics as sm
import matplotlib.pyplot as plt

# 设置打印区域全部显示
np.set_printoptions(threshold = np.inf)
# 设置中文显示,负号显示
plt.rcParams['font.sans-serif'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False

# 基于天的数据训练与预测
# 读取文件中的样本数据
x, y = [], []
with open("bike_day.csv", "r") as f:
    reader = csv.reader(f)
    for row in reader:
        x.append(row[2:13])
        y.append(row[-3:])

for i in range(0,len(x)):
    x[i][0] = x[i][0].replace('-','')

# 变量名称
feature_names = np.array(x[0])
# 去掉标题
x = np.array(x[1:], dtype=float)
y = np.array(y[1:], dtype=float)

# 样本随机化（消除样本数据的影响）
x, y = su.shuffle(x, y[:,-3], random_state=7)
data = []
a = [50,100,150,200,250,300,350,400,450,500,1000]
for i in a:
    train_size = int(len(x)*0.8)
    train_x = x[:train_size]  # 训练集输入部分
    test_x = x[train_size:]  # 测试集输入部分
    train_y = y[:train_size]  # 训练集输出部分
    test_y = y[train_size:]  # 测试集输出部分

    # 定义模型（决策树最大深度，防止过拟合）
    model = se.RandomForestRegressor(max_depth=10, n_estimators=i, min_samples_split=2)
    model.fit(train_x,train_y)
    pred_y = model.predict(test_x)  # 使用测试集预测
    # 特征重要性
    fi = model.feature_importances_
    # 计算并打印测试指标R2
    r2 = sm.r2_score(test_y, pred_y)
    print('r2:', r2)
    data.append(r2)
plt.figure()
plt.title('决策树数量对r2的影响')
plt.ylabel('r2')
plt.xticks(range(len(a)), a)
plt.plot(data,'b-',)
plt.tight_layout()
plt.show()

```

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
无疆76 2024-11-11 19:15
关注
以下回复参考：皆我百晓生、券券喵儿等免费微信小程序作答:

关于您提到的每次运行随机森林模型得到的超参数最优结果不一样的问题，这主要是因为随机森林模型的训练是随机的，具有以下几个原因：

数据随机性：每次运行代码时，数据集的划分（训练集和测试集）是随机的，这会导致模型在每次运行时的表现有所不同。虽然您设置了固定的随机状态（random_state=7），但对于每次循环中的数据划分仍然可能有变化。
模型随机性：随机森林中的每棵树都是独立地从一个随机子集中选取的样本和特征进行训练的。这意味着每次运行时，尽管数据集相同，但由于树的构建过程存在随机性，最终的模型可能会有所不同。

为了找到最优的超参数，您可以采用以下几种方法：

网格搜索（Grid Search）：使用sklearn.model_selection.GridSearchCV对特定的超参数组合进行交叉验证，以确定最佳的超参数组合。这可以帮助您找到在给定的数据集上表现最好的参数组合。
随机搜索（Randomized Search）：使用基于采样的方法来搜索超参数空间，例如sklearn.model_selection.RandomizedSearchCV。这种方法更加灵活，可以在超参数空间中探索更多的区域。
重复实验：对于每次实验，您可以多次运行模型并取平均值或使用其他统计方法来评估超参数的影响。这样可以减少随机性的影响，得到更稳定的评估结果。
可视化结果：您已经进行了可视化操作来展示不同决策树数量对R²的影响。这是一个很好的开始，但为了确保结果的稳定性，您可能需要增加更多的实验次数并在多次实验的结果上进行平均。此外，您也可以考虑使用误差棒或其他统计量来表示不同实验的变异程度。

关于您的代码，建议您使用GridSearchCV或RandomizedSearchCV来更有效地找到最优的超参数组合。这将帮助您更准确地评估不同超参数的影响，并找到在特定数据集上表现最好的模型参数。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【机器学习实例】随机森林回归模型预测健康保险费用
2024-08-20 17:04

李威威wiwi的博客这就是为什么老年人需要支付比年轻人更高的保险费用。当然，除了年龄，许多其他因素也会影响健康保险的费用。在本文中，将通过实例一步一步了解如何使用Python应用机器学习进行健康保险费用预测。
机器学习(十八)：Bagging和随机森林
2023-08-09 10:32

算法小陈的博客本文深入探讨了集成学习及其在随机森林中的应用。对集成学习的基本概念、优势以及为何它有效做了阐述。随机森林，作为一个集成学习方法，与Bagging有紧密联系，其核心思想和实现过程均在文中进行了说明。还详细展示...
从决策树到随机森林：Python机器学习里的“树形家族“深度实战与原理拆解
2025-06-27 00:02

小张在编程的博客决策树和随机森林作为机器学习中的经典算法，各有优劣。决策树以其高可解释性和快速训练的特点，适合对模型解释要求较高、数据量较小的场景；随机森林则凭借强大的抗过拟合能力和特征选择优势，在复杂数据和大规模...
编程小白冲Kaggle每日打卡（17）--kaggle学堂：＜机器学习简介＞随机森林
2025-02-28 08:34

AZmax01的博客决策树给你留下了一个艰难的决定。...我们将以随机森林为例。随机森林使用许多树，并通过对每个组成树的预测进行平均来进行预测。它通常比单个决策树具有更好的预测准确性，并且在默认参数下运行良好。
随机森林实例——鸢尾花分类和房价预测
2025-03-12 15:36

xcnn_的博客本文简单介绍了随机森林算法，该算法主要用于解决分类问题和回归问题，是机器学习领域的一个重要算法。
人工智能——随机森林算法
2025-04-05 15:51

AI人工智能算法的博客然后建立随机森林分类模型，利用训练样本训练该模型，得到6棵决策树，进而采用改进后的随机森林分类模型对待测样本数据进行预测。最后将预测结果进行展示。本章掌握的技能是：1、使用NumPy库实现对样本数据的读取...
Python 中的随机森林
2022-01-04 22:27

IT娜娜的博客什么是随机森林 众所周知，树模型是高方差、低偏差的模型。因此，它们容易过度拟合训练数据。如果我们不修剪树模型或引入早期停止标准（例如每个叶节点的最小实例数），我们可以概括一下树模型的作用，这很吸引人...
#数据挖掘--第4章：建模调参之决策树与随机森林初体验
2020-04-12 18:49

投笔丶从戎的博客 #机器学习--第4章：建模调参之决策树与随机森林初体验一、原理概述二、算法实现序言：本系列博客面向初学者，只讲浅显易懂易操作的知识。一、原理概述不知初学编程时的你是否和我一般，曾异想天开地想，...
推荐系统——随机森林算法及其在推荐系统中的应用
2023-08-10 09:33

光子AI的博客 3.3 代码实例下面，我们再使用 Python 语言实现一下随机森林算法的示例，来对比查看随机森林算法和其他机器学习算法之间的区别。数据集实现导入相关的库 import pandas as pd from sklearn.model_selection ...
Python数据分析与机器学习实战＜八＞决策树、随机森林
2021-11-06 13:49

-小透明-的博客英文不可避免（慢慢适应） sklearn参数选择 from sklearn.model_selection import train_test_split # 数据切分,0.1做测试集，random_state指定随机状态使每次运行代码结果都是一样的 data_train,data_test,target_...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 11月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月11日

机器习随机森林调参为什么每次不一样

2条回答 默认 最新

问题事件

2条回答默认最新