机器学习构建预测模型R2较低怎么优化代码

机器学习构建预测模型，R2卡在0.6-0.69不动，网格搜索和贝叶斯优化以及前后两者结合调整超参数都不能将R2提升，该怎么办

数据100组，三个特征变量，一个目标变量。进行过异常值剔除
剔除代码

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 从CSV文件读取数据
file_path = 'C:/Users/GMQ/Desktop/data.csv'  # 替换成你的文件路径
df = pd.read_csv(file_path, header=None)  # 假设没有列名，使用默认的列索引

# 分离特征和目标变量
features = df.iloc[:-1]  # 前三行是特征
target = df.iloc[-1]  # 最后一行是目标变量

# 绘制箱线图
plt.figure(figsize=(10, 6))
sns.boxplot(data=features.T)  # 转置以便每一列是一个特征
plt.title('Boxplot of Features')
plt.xticks(rotation=45)
plt.show()

# 处理异常值
for column in features.columns:
    Q1 = features[column].quantile(0.25)
    Q3 = features[column].quantile(0.75)
    IQR = Q3 - Q1
    
    # 根据箱线图定义删除或替换异常值
    features[column] = features[column].clip(lower=Q1 - 1.5 * IQR, upper=Q3 + 1.5 * IQR)
    # 或者替换为中位数
    # median = features[column].median()
    # features[column] = features[column].where((features[column] >= Q1 - 1.5 * IQR) & (features[column] <= Q3 + 1.5 * IQR), median)

# 处理后的数据集
processed_df = pd.concat([features, target], axis=0)

# 保存处理后的数据集到CSV文件
processed_file_path = 'processed_data.csv'  # 替换成你想要保存的文件路径
processed_df.to_csv(processed_file_path, index=False, header=False)  # 不保存索引和列名

模型代码

import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import r2_score, mean_absolute_error
from skopt import BayesSearchCV

# 1. 加载数据
file_path = 'C:/Users/GMQ/Desktop/processed_data.csv'  # 修改为你的数据文件路径
df = pd.read_csv(file_path)

# 假设数据包含四列，前三列为特征变量，最后一列为目标变量
X = df.iloc[:, :-1]
y = df.iloc[:, -1]

# 2. 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 3. 定义梯度提升回归模型
model = GradientBoostingRegressor(random_state=42)

# 4. 第一阶段：网格搜索
param_grid = {
    'n_estimators': [200, 300, 400],
    'learning_rate': [0.01, 0.05, 0.1],
    'max_depth': [5, 7, 9]
}

grid_search = GridSearchCV(
    estimator=model,
    param_grid=param_grid,
    scoring='r2',
    cv=5,
    verbose=1,
    n_jobs=-1
)

grid_search.fit(X_train, y_train)

# 获取网格搜索的最佳参数
best_params_grid = grid_search.best_params_

# 5. 第二阶段：贝叶斯优化
param_space = {
    'n_estimators': (best_params_grid['n_estimators'] - 50, best_params_grid['n_estimators'] + 50),
    'learning_rate': (best_params_grid['learning_rate'] * 0.5, best_params_grid['learning_rate'] * 1.5, 'log-uniform'),
    'max_depth': (best_params_grid['max_depth'] - 2, best_params_grid['max_depth'] + 2)
}

bayes_search = BayesSearchCV(
    estimator=model,
    search_spaces=param_space,
    scoring='r2',
    cv=5,
    n_iter=50,          # 迭代次数，可以根据计算资源和时间进行调整
    random_state=42,
    verbose=1,
    n_jobs=-1           # 并行处理的作业数，-1表示使用所有可用的CPU核心
)

bayes_search.fit(X_train, y_train)

# 获取最佳参数和最佳分数
best_params_bayes = bayes_search.best_params_
best_score_bayes = bayes_search.best_score_

# 训练最终模型（使用最佳参数）
best_params_grid.update(best_params_bayes)  # 更新参数为网格搜索和贝叶斯优化得到的最佳参数
model.set_params(**best_params_grid)
model.fit(X_train, y_train)

# 在测试集上评估模型
y_pred = model.predict(X_test)
r2 = r2_score(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)

# 打印模型优化结果
print("\n梯度提升回归模型优化结果:")
print(f"最佳参数: {best_params_grid}")
print(f"最佳R^2分数: {best_score_bayes:.4f}")
print(f"测试集上的R^2分数: {r2:.4f}")
print(f"测试集上的平均绝对误差: {mae:.4f}")
print("------------------------------------------------------------")

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-司宇[在线] 2024-08-04 21:16
关注
引自免费微信小程序：皆我百晓生

你已经进行了网格搜索和贝叶斯优化来调整参数，但R²分数仍然无法提升。在这种情况下，可以尝试以下几种策略来进一步优化你的模型：

特征工程：检查你的特征是否包含所有重要的相关信息。可能有些重要的特征被遗漏或者存在冗余、无关的特征。尝试进行特征选择、特征组合或创建新的特征，以提高模型的预测能力。
超参数优化：除了你已经在用的参数，还可以尝试调整其他超参数，比如决策树的子采样比例、最小分割点样本数等。这些参数可能对模型的性能有重要影响。
模型融合：尝试使用不同的模型并融合他们的预测结果。例如，你可以使用随机森林、支持向量回归（SVR）、神经网络等模型进行预测，然后平均或加权他们的预测结果。模型融合常常能带来性能的提升。
模型诊断和可视化：通过可视化模型的决策边界和重要性权重等方式，了解模型在哪些区域表现良好，哪些区域存在问题。这有助于发现数据中的潜在模式或异常值，从而调整模型或数据预处理步骤。
数据检查和处理：确保你的数据没有异常值或缺失值，它们可能对模型的训练产生负面影响。另外，检查数据的分布和是否存在离群值也是一个好的做法。如果数据有特定的分布模式（如噪声较多），可能需要采取特定的数据清洗或预处理步骤。
使用集成方法：考虑使用像Boosting或者Bagging这样的集成方法，这些方法通过组合多个模型来提高预测性能。例如，你可以尝试使用sklearn.ensemble.GradientBoostingRegressor的n_subsamples参数来进行子采样，以构建一种基于梯度提升算法的bagging方法。或者你可以尝试使用随机森林等集成树模型。

记住，机器学习是一个迭代过程，需要不断地尝试和调整。不要害怕尝试新的方法或调整你的策略，直到你找到最适合你数据和任务的模型为止。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

基于机器学习的二手房房价数据分析与价格预测模型
2024-08-21 14:19

王小王-123的博客因此，探索二手房市场的特点...从传统的统计分析方法到现代的机器学习技术，从宏观经济因素到微观市场特征，这些研究不仅为二手房市场的参与者提供了宝贵的信息和建议，也为房价预测的研究提供了丰富的理论和实践基础。
AI机器学习入门与实战，训练模型、优化模型、部署模型！
2024-08-23 15:27

AI产品经理的博客要落地一个机器学习的项目，是有章可循的，通过这六个步骤，小白也能搞定机器学习。
机器学习实战：从线性回归到GBDT的波士顿房价预测优化之旅
2025-08-08 04:15

烧烤摊在逃五花肉的博客本文以经典的波士顿房价预测项目为例，完整展示了机器学习实战的优化流程。从数据探索与线性回归基线模型出发，逐步引入正则化、支持向量机、决策树，并重点对比了随机森林与梯度提升决策树（GBDT）的性能。通过详尽...
基于机器学习的房价预测模型研究(源码+万字报告+讲解)（支持资料参考_相关定制）
2025-08-19 16:15

炳烛之明科技的博客房价涨跌的影响因子错综复杂，除了...再将测试的结果进行可视化画图分析，同时再将这四个模型的 R2, 平均绝对误差 (MAE)，均方误差（MSE）结果通过图表进行绘制出来，最后再通过多元线性回归模型进行可视化界面的编写。
如何用机器学习实现股票预测
2023-08-05 01:40

光子AI的博客我们先从基本概念入手，介绍股票预测的相关术语和方法论，然后详细介绍一下机器学习模型中的回归模型，并基于历史数据构建股票预测模型。最后，我们通过实际案例来展示如何利用机器学习模型对某只股票进行实时预测，...
如何利用python机器学习解决空间模拟与时间预测问题
2025-07-30 16:41

xiao5kou4chang6kai4的博客 SVR回归与SVM分类的区别在于，SVR的样本点最终只有一类，它所寻求的最优超平面不是SVM那样使两类或多类样本点分的“最开”，而是使所有的样本点离超平面的总偏差最小。...深度学习是机器学习的一种。
深入构建加密货币价格预测系统：从数据获取到模型优化的完整指南！
2025-03-04 16:57

bug菌¹的博客本文收录于「编程与技术实战」专栏，此专栏涵盖了C/C++编程、人工智能、数据结构、机器学习等技术领域的内容，助你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！
利用机器学习预测股价：金融数据建模技巧
2023-07-21 01:02

光子AI的博客预测分析最典型的方法就是用已有的历史数据进行回归，得到一个预测模型，再根据这个预测模型对未来数据进行预测。 2.2.2 诊断分析诊断分析是指识别和分析系统内部的矛盾、异常和风险等。诊断分析的方法包括异常检测...
Python机器学习实战：使用机器学习预测股票市场走势
2024-04-18 13:05

光子AI的博客近年来，机器学习技术在金融领域的应用越来越广泛，特别是在股票市场预测中，展示了其强大的能力。随着技术的不断进步，机器学习在股票市场预测中的应用前景广阔。数据质量：高质量的数据是模型成功的关键，数据的...
人工智能中的机器学习和模型评价
2024-10-31 15:47

耄耄爱哈气的博客 机器学习是人工智能的一个分支，它使计算机系统能够从数据中学习并做出决策，而无需进行明确的编程。它涉及到开发算法和技术，使计算机能够从数据中学习并做出预测或决策。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 8月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 8月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月4日

机器学习构建预测模型R2较低怎么优化代码

1条回答 默认 最新

问题事件

1条回答默认最新