利用随机森林预测共享单车投放量添加日期进行预测,修改三个超参数改变R2并绘制R2的图像

问题现象：在利用随机森林预测共享单车投放量时，因其特征为日期、季节、年、月、小时、是否是假期、星期几、是否为工作日、天气、温度、体感温度、湿度、风速，我想添加日期进行预测，并通过修改三个超参数改变R2并绘制R2的图像，来讨论最优参数，应该如何修改我的代码？
bike_day.csv数据类型如下：


import sklearn.metrics as sm # 性能评价模块
import sklearn.utils as su # 通用功能模块(随机数模块)
import sklearn.ensemble as se  # 导入随机森林模型
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


# 加载基于天的数据
day_data = pd.read_csv('bike_day.csv')

# 将日期转换为日期时间格式
# day_data['dteday'] = day_data['dteday'].replace('/','.')
# print(day_data['dteday'])

# 提取特征和标签
features = day_data.columns[2:13]
target_name = day_data.columns[-3]

data = day_data[features].values
target = day_data[target_name].values

x,y = su.shuffle(data, target,random_state=7)

# 训练集：训练模型
# 测试集：评估模型好坏
train_size = int(len(x) * 0.8) # 训练集样本数量
train_x = x[:train_size] # 训练集输入部分
test_x = x[train_size:] # 测试集输入部分
train_y = y[:train_size] # 训练集输出部分
test_y = y[train_size:] # 测试集输出部分

# 定义模型
model = se.RandomForestRegressor(
    max_depth=10, # 最大深度，防止过拟合
    n_estimators=1000, # 决策树数量
    min_samples_split=2) # 样本最小数量，最小样本分割节点，小于这个值就不再划分，防止过拟合

model.fit(train_x,train_y) # 训练
pred_y = model.predict(test_x)
 # 计算并打印r2的值,准确率
print('r2:',sm.r2_score(test_y,pred_y))

# 特征重要性
fi = model.feature_importances_ # 仅决策树有
print('特征重要性fi',fi)

x1 = np.arange(fi.size) # 有多少特征值就产生多少个值
sorted_idx = fi.argsort()[::-1] # 特征重要性依据下标排序
fi = fi[sorted_idx] # 特征重要性按照sorted_idx来排列

# 特征重要性可视化
plt.figure()

plt.title('Day-feature_importances')
plt.ylabel('feature_importances')

plt.bar(x1,fi,0.4,color='b',label="feature_importances")
plt.xticks(x1,[features[i] for i in sorted_idx],rotation=90)

plt.legend()
plt.tight_layout()
plt.show()

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

JavaPub-rodert 领域专家: 后端开发技术领域 2024-11-13 11:11

关注

本答案参考多次询问 ChatGPT-3.5 后选择的最佳回答，若是满意，还请采纳，谢谢

要根据日期进行预测，并通过修改三个超参数来改变R²值，你可以按照以下步骤修改代码：

添加日期特征：首先，确保将日期列（如 dteday）从原始数据中提取并转化为可以用于模型的特征。通常，你可以提取日期中的年、月、日、周几等信息作为额外特征。
调整三个超参数：通过修改 RandomForestRegressor 的超参数（如 max_depth、n_estimators、min_samples_split 等）并观察 R² 值的变化。
绘制 R² 的变化图：为了研究不同超参数组合对 R² 的影响，可以通过网格搜索或手动调整超参数的不同值，绘制 R² 随超参数变化的图像。

修改后的代码示例如下：

import sklearn.metrics as sm
import sklearn.utils as su
import sklearn.ensemble as se
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 加载数据
day_data = pd.read_csv('bike_day.csv')

# 将日期转换为日期时间格式，并提取日期的相关特征
day_data['dteday'] = pd.to_datetime(day_data['dteday'])
day_data['year'] = day_data['dteday'].dt.year
day_data['month'] = day_data['dteday'].dt.month
day_data['day'] = day_data['dteday'].dt.day
day_data['weekday'] = day_data['dteday'].dt.weekday  # 星期几

# 提取特征和标签
features = day_data.columns[2:14]  # 新的特征列包括日期相关特征
target_name = day_data.columns[-3]

data = day_data[features].values
target = day_data[target_name].values

x, y = su.shuffle(data, target, random_state=7)

# 训练集：训练模型
# 测试集：评估模型好坏
train_size = int(len(x) * 0.8)  # 训练集样本数量
train_x = x[:train_size]  # 训练集输入部分
test_x = x[train_size:]  # 测试集输入部分
train_y = y[:train_size]  # 训练集输出部分
test_y = y[train_size:]  # 测试集输出部分

# 定义并调节三个超参数：max_depth, n_estimators, min_samples_split
max_depth_range = [5, 10, 20, None]
n_estimators_range = [100, 500, 1000]
min_samples_split_range = [2, 5, 10]

# 用于记录不同超参数组合的R²值
r2_scores = []

# 遍历超参数组合
for max_depth in max_depth_range:
    for n_estimators in n_estimators_range:
        for min_samples_split in min_samples_split_range:
            model = se.RandomForestRegressor(
                max_depth=max_depth,
                n_estimators=n_estimators,
                min_samples_split=min_samples_split
            )
            model.fit(train_x, train_y)  # 训练模型
            pred_y = model.predict(test_x)  # 预测
            r2 = sm.r2_score(test_y, pred_y)  # 计算R²值
            r2_scores.append((max_depth, n_estimators, min_samples_split, r2))

# 转换为DataFrame以便于查看和分析
r2_df = pd.DataFrame(r2_scores, columns=['max_depth', 'n_estimators', 'min_samples_split', 'r2'])

# 绘制不同超参数组合对应的R²值
fig, ax = plt.subplots(figsize=(10, 6))
for max_depth in max_depth_range:
    subset = r2_df[r2_df['max_depth'] == max_depth]
    ax.plot(subset['n_estimators'], subset['r2'], label=f'Max Depth: {max_depth}', marker='o')

ax.set_xlabel('Number of Estimators')
ax.set_ylabel('R²')
ax.set_title('Effect of n_estimators on R² for different max_depth values')
ax.legend()
plt.show()

# 输出最佳参数组合和对应的R²值
best_params = r2_df.loc[r2_df['r2'].idxmax()]
print(f"Best parameters: {best_params[['max_depth', 'n_estimators', 'min_samples_split']]}")
print(f"Best R²: {best_params['r2']}")

说明：

添加日期特征：通过 pd.to_datetime 转换日期，并从中提取 year, month, day, weekday 等特征，这些特征会作为输入特征之一用于模型训练。
超参数调整：通过设置不同的 max_depth, n_estimators, min_samples_split 来观察不同组合对 R² 值的影响，并记录下来。
绘制 R² 图像：通过绘制不同 max_depth 下 n_estimators 对 R² 的影响，可以观察到不同超参数的效果。
选择最优超参数：通过计算每种超参数组合的 R² 值，可以选择最优的超参数组合。

根据以上代码，你可以通过调节超参数和日期特征来提高模型的预测效果，并绘制 R² 的变化图，帮助分析最优超参数的选择。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

基于随机森林回归的共享单车投放预测
2024-06-11 16:10

不懂开发的程序猿的博客 随机森林(Random Forests)是一种集成学习算法。集成学习是指将多个个体学习模型，结合一定策略，将它们结合在一起，从而形成一个强学习器。 随机森林由多棵决策树构成，且森林中的每一棵决策树之间没有关联，模型的...
共享单车需求预测
2021-05-18 20:12

时光入海流Zz的博客随着社会经济的不断发展和出行需求的增多，共享单车已经成为每个人的必需品。同时，随着互联网的普及和发展，共享单车行业，这是一个重要的“共享经济”产业，已逐步进入了移动互联时代。移动互联对共享单车发展的...
Python数据分析-共享单车租赁预测（支持向量机分析预测）
2024-06-29 09:15

statistican_ABin的博客共享单车租赁预测（支持向量机分析预测）
[Python嗯~机器学习]---用python3来分析共享单车投放量
2019-01-15 17:17

鹏鹏哥哥的小红帽的博客共享单车投放量预测数据集https://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset 字段信息 hour.csv和day.csv都有如下的字段，不过day.csv中不会有hr。 instant: 样本编号 dteday: 日期 season: 季节...
机器学习04-(决策树、集合算法：AdaBoost模型、BBDT、随机森林、分类模型：逻辑回归)
2020-07-07 09:43

YEGE学AI算法的博客机器学习04机器学习-04集合算法AdaBoost模型（正向激励）GBDT自助聚合随机森林分类模型什么问题属于分类问题？逻辑回归数据集划分交叉验证混淆矩阵分类报告机器学习-04 集合算法根据多个不同模型给出的预测结果，...
《从青铜学到王者》Python机器学习工程师之决策树，随机森林，逻辑回归，朴素贝叶斯，数据集的划分 03
2021-08-12 10:20

驭风少年君的博客首先为样本矩阵中的样本随机分配初始权重，由此构建一棵带有权重的决策树，在由该决策树提供预测输出时，通过加权平均或者加权投票的方式产生预测值。将训练样本代入模型，预测其输出，对那些预测值与实际值不同的...
ML_机器学习
2021-09-07 09:26

流动熵的博客人工智能（Artificial Intelligence）是计算机科学的一个分支学科，主要研究用计算机模拟人的思考方式和行为方式，从而在某些领域代替人进行工作. 2. 人工智能的学科体系以下是人工智能学科体系图： [外链图片转存...
线性回归案例分析
2020-08-05 00:00

整得咔咔响的博客本案例是kaggle共享单车的比赛案例，先对数据集介绍Instant 记录号Dteday：日期Season：季节 1=春天 2=夏天 3=秋天 4=冬天yr：年份，(0: 2011, 1...
Python-Level5-day07am:聚类的基于噪声密度/凝聚层次算法及评价指标及小结,机器学习补充练习,机器学习总结,
2022-06-27 20:13

dpq666dpq666的博客执行结果：机器学习补充练习示例1：线性回归读取single.txt文件中的样本，定义线性回归模型，并训练，绘制训练的模型，打印模型的R2分数 # 线性回归示例 import numpy as np # 线性模型 import sklearn.linear_...
机器学习入门第三天
2019-04-17 22:06

weixin_43473360的博客作为决策树模型训练过程的副产品，根据每个特征划分子表前后的信息熵减少量就标志了该特征的重要程度，此即为该特征的特征重要性指标。通过模型训练得到的model对象提供了属性：feature_importances_来存储每个特征...
51c自动驾驶~合集46
2025-01-11 00:13

whaosoft-143的博客我自己的原文哦~ https://blog.51cto.com/whaosoft/13050104三维空间占有率（3D Occupancy）预测的目的是预测三维空间中的每个体素是否被占有，如果被占有，则对应的体素将被标记。3D Semantic Occupancy是在三维...
机器学习入门
2021-07-16 16:07

小石小石摩西摩西的博客机器学习教程 ...机器学习已经广泛应用于数据挖掘、搜索引擎、电子商务、自动驾驶、图像识别、量化投资、自然语言处理、计算机视觉、医学诊断、信用卡欺诈检测、证券金融市场分析、游戏和机器人等领...
机器学习相关
2020-06-29 09:36

寒听雪落的博客一个计算机程序在完成任务T之后，获得经验E，其表现效果为P，如果任务T的性能表现，也就是用以衡量的P，随着E增加而增加，那么这样计算机程序就被称为机器学习系统。自我完善，自我增进，自我适应。 ### 为什么...
07-机器学习
2024-06-10 16:12

南柯一梦的江湖的博客 1.机器学习概述人工智能学科体系人工智能、机器学习、深度学习的关系 ...通俗地讲，机器学习就是建立模型，根据已知数据的输入与输出去进行自动学习，发现输入与输出之间的规律，并总结该规律，进而使用该模型
机器学习 - 算法模型 - 回归问题
2019-11-13 09:31

_leyilea的博客文章目录线性回归线性回归评估训练结果误差（metrics）模型的保存和加载岭回归多项式回归决策树基本算法原理工程优化集合算法正向激励自助聚合随机森林 线性回归输入输出 0.5 5.0 0.6 5.5 0.8 6.0 1.1 6.8 1.4 ...
机器学习笔记
2022-04-28 09:47

Master__0的博客一个计算机程序在完成任务T之后，获得经验E，其表现效果为P，如果任务T的性能表现，也就是用以衡量的P，随着E增加而增加，那么这样计算机程序就被称为机器学习系统。自我完善，自我增进，自我适应。为什么需要机器...
机器学习Day03
2021-08-06 08:35

流动熵的博客首先为样本矩阵中的样本随机分配初始权重，由此构建一棵带有权重的决策树，在由该决策树提供预测输出时，通过加权平均或者加权投票的方式产生预测值。将训练样本代入模型，预测其输出，对那些预测值与实际值不同的...
共享单车需求项目分析
2025-05-18 21:20

m0_54772292的博客通过数据预处理，将日期拆分为年、月、日、小时等特征，并进行可视化分析发现：天气因素（温度、湿度）、时间特征（月份、小时）显著影响租赁量。特征工程保留了9个关键特征，包括离散变量的独热编码。模型评估表明...
Python小记：15.机器学习实战基础知识笔记
2020-10-16 22:30

人工智睿的博客机器学习Python机器学习概述什么是机器学习为什么需要机器学习机器学习的...随机森林人工分类逻辑分类朴素贝叶斯分类数据集划分交叉验证混淆矩阵分类报告决策树分类验证曲线学习曲线支持向量机(SVM)支持向量机原理样本...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 11月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月11日

利用随机森林预测共享单车投放量添加日期进行预测,修改三个超参数改变R2并绘制R2的图像

1条回答 默认 最新

说明：

问题事件

1条回答默认最新