机器学习六折交叉验证获取不到结果，数据拟合结果有问题

使用机器学习模型对数据按年份（共6年）进行6折交叉验证，但是数据的拟合结果精确度（R2）不是逐年上升的，并且我得不到输出的预测值，也就没办法通过看散点图判断哪里有问题，希望可以指出我哪里出现了问题

from sklearn.model_selection import KFold
#st
import os
import numpy as np
import pandas as pd
import lightgbm as lgb
import matplotlib as plt
from sklearn import model_selection

from sklearn.metrics import mean_squared_error
from math import sqrt
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import r2_score
from IPython.display import clear_output as clear

print('Loading data...')

#加载数据
path1 = r"D:\data\daqiyaogan\LightGBM数据文件\单独测试\删除异常值.csv"
test_file = r"D:\data\daqiyaogan\LightGBM数据文件\单独测试\删除异常值_2015.csv"
txt_path = r"D:\data\daqiyaogan\LightGBM数据文件\单独测试\2015.txt"
#文件开头
content_ls = ['learning_rate', 'max_depth', 'num_leaves', 'RMSE', 'MAE', 'R2', 'RMSE_2015', 'MAE_2015', 'R2_2015']
if os.path.exists(txt_path):
    os.remove(txt_path)
with open(txt_path, 'w') as f:
    f.write(','.join(content_ls) + '\n')
df = pd.read_csv(path1)
Y = df['pm10_mean'].values
X = df.drop(['time', 'pm2_5', 'site', 'pm10_mean'],axis = 1).values
x_train,x_test,y_train,y_test = model_selection.train_test_split(X,Y,test_size = 0.1,random_state = 33)

test_df = pd.read_csv(test_file)
test_x = test_df.drop(['time', 'pm2_5', 'site', 'pm10_mean'],axis = 1).values
test_y = test_df['pm10_mean'].values

print('Starting training...')

#模型训练       
max_depth = 10  
num_leaves = 490
learning_rate = 0.1
n_estimators = 850
min_child_samples = 1
min_child_weight = 0.001
feature_fraction = 1
lambda_l1 = 0
drop_rate = 0.1
lambda_l2 = 0
subsample = 1
max_drop = 100
    
print('正在验证learning_rate为{},max_depth为{},num_leaves为{}的STLightBDT模型'.format(round(learning_rate,3), max_depth, num_leaves))
gbm = lgb.LGBMRegressor(num_leaves = num_leaves,
                            learning_rate = learning_rate,
                            max_depth = max_depth,
                            min_child_samples = min_child_samples,
                            min_child_weight = min_child_weight,
                            feature_fraction = feature_fraction,
                            extra_tree = False,
                            first_metric_only = True, 
                            drop_rate = drop_rate,
                            lambda_l1 = lambda_l1, 
                            lambda_l2 = lambda_l2,
                            subsample = subsample, 
                            max_drop = max_drop, 
                            n_estimators = n_estimators)
gbm.fit(x_train, y_train,
                        eval_set = [(x_test, y_test)],
                        eval_metric = 'l1',
                        early_stopping_rounds = 20)
clear()    
print('Starting predicting...')        
def calc(real, pred):
    rmse = round(sqrt(mean_squared_error(real, pred)), 3)
    mae = round(mean_absolute_error(real, pred), 3)
    r2 = round(r2_score(real, pred), 3)
    return rmse, mae, r2    
#模型预测
y_pred = gbm.predict(x_test, num_iteration = gbm.best_iteration_)
rmse, mae, r2 = calc(y_test, y_pred)
print('样本集中RMSE={}, MAE={}, R2={}'.format(rmse, mae, r2))
#模型评估

# rmse = round(sqrt(mean_squared_error(y_test, y_pred)), 3)
# mae = round(mean_absolute_error(y_test, y_pred), 3)
# r2 = round(r2_score(y_test, y_pred), 3)
# print('样本集中RMSE={}, MAE={}, R2={}'.format(rmse, mae, r2))            
y_pred = gbm.predict(test_x, num_iteration = gbm.best_iteration_)
rmse, mae, r2 = calc(test_y, y_pred)
# rmse = round(sqrt(mean_squared_error(test_y, y_pred)), 3)
# mae = round(mean_absolute_error(test_y, y_pred), 3)
# r2 = round(r2_score(test_y, y_pred), 3)
print('2015测试集中RMSE={}, MAE={}, R2={}'.format(rmse, mae, r2,))

我修改数据，每一年运行一次上面的代码，但是得到的结果（R2)不是逐年上升的，这不应该啊。运行结果如下：
2015测试集中RMSE=21.148, MAE=14.754, R2=0.902
2017测试集中RMSE=18.222, MAE=12.74, R2=0.916
2018测试集中RMSE=18.281, MAE=12.317, R2=0.908
2019测试集中RMSE=16.447, MAE=11.404, R2=0.903
2020测试集中RMSE=15.908, MAE=11.174, R2=0.889

我也试了随机6折交叉验证，但是我想得到的是每一年的数据对应的评估结果和预测值，真的希望可以点明我该怎样改，对我来说有点太困难了

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
万里鹏程转瞬至人工智能领域优质创作者 2022-07-24 21:10
关注
获得5.00元问题酬金

这里要补充的第一点就是，rmse与mae关联性强一些，与r2的关联性差一些，严格意义上rmse、mae、r2是三个指标，rmse下降r2不一定下降。还有就是问题中对训练数据与测试数据的划分不够明确，博主暂时理解为有2015,2016,2017,2018,2019,2020共计6年的数据。关于问题中给出运行结果来源推导为，2016-2020训练=》2015年测试集结果；[2015,2017-2020]训练=》2016年测试集结果；[2015-2016,2018-2020]训练=》2017年测试集结果；[2015-2018,2020]训练=》2019年测试集结果；[2015-2019]训练=》2020年测试集结果。
假如是博主所推导的这种情况，数据的特征分布可以解释为：训练数据中包含的未来数据（超过测试数据年份）越少，模型拟合效果越好。也就是说，数据的变化特征具有一定的时序性，过去与未来相关，但未来与过去无关，在建模时应考虑数据的时序关系。

假如题目在的测试结果是2015年训练，2015年测试；2016年训练，2016年测试；........；2020年训练，2020年测试。可以看到的是针对不同年份的数据，模型拟合的效果是不一样的。建议题主对每年数据的分布特征进行一个统计（观测数据的复杂程度），对数据进行一个统一映射（或者标准化）

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

机器学习交叉验证问题人工智能机器学习
2022-03-29 20:00

回答 1 已采纳我觉得可能是数据的问题。我之前做叶绿素，验证集也是一直低于训练，但是这是没问题的，可能是数据量太小的缘故，但是我那个数据量提升也还是验证loss低于训练
k折交叉验证选取准确率最高的结果可以吗 sklearn 机器学习深度学习
2021-11-16 15:33

回答 1 已采纳如你所说，它最终是一个模型的评价指标，用于评价模型的能力。用k折交叉，是为了尽可能消除因为数据的划分带来的波动，选取平均结果很大程度上减小了因为某次数据划分失衡带来的误差；取极值其实是放大了这个误差
关于#机器学习#的问题：如何基于交叉验证进行模型的选择与评价人工智能机器学习
2023-02-21 23:52

回答 2 已采纳交叉验证是一种在机器学习中常用的评估模型性能的方法。它的基本思想是将数据集分成若干个互不重叠的子集，然后利用其中的一部分子集作为测试集，而将其他子集作为训练集，这样可以对模型进行多次训练和测试，以获得
基于机器学习的肿瘤特征识别，使用了六个机器学习的模型进行交叉验证.zip
2024-03-30 18:30

例如，k折交叉验证会将数据划分为k个部分，每次使用k-1部分训练模型，剩余部分作为验证，重复k次，确保每个部分都被用作验证一次。这种方法可以更全面地评估模型的泛化能力，避免因数据分割不均导致的评估偏差。在...
如何调用训练好的机器学习模型处理新数据集？人工智能数据挖掘机器学习
2022-02-07 01:05

回答 1 已采纳直接加载模型然后对新数据集进行预测啊，结果就是0或者1，然后把结果按照之前训练的数据集格式写入一个新的csv，这就是相当于打上标签了，但是这个标签不一定是全部对的，除非你能保证你的模型推理结果一定是正
机器学习决策树鸢尾花数据集，绘制决策边界，出现相同代码相同数据多次运行，结果不一致的问题 python 决策树机器学习
2022-02-03 21:18

回答 1 已采纳 sklearn.tree.DecisionTreeClassifier()在进行分支的时候特征选择是随机的，即使是splitter=”best”的时候。打印dt_clf.feature_importa
机器学习怎么导出最终的结果呀？人工智能机器学习神经网络
2021-09-04 20:06

回答 2 已采纳例如 encog （比较老的一个框架）可以用 save 导出。其他的肯定也有相关的，可以找找。 //EncogUtility.TrainToError(network, training, TAR
四、机器学习基础知识：交叉验证
2023-05-01 17:00

七层楼的疯子的博客分别从随机子抽样验证、K折交叉验证、留一法交叉验证以及自助采样验证这四种验证方法来介绍机器学习中的交叉验证过程，其中对这四种方法均采用文字加图解的方式进行详细说明。
机器学习提取数据集问题 python 机器学习
2023-02-14 23:33

回答 3 已采纳数据清洗，用正则匹配清洗掉就行了。或者读数据时用a.startswith('>Negative')判断下。
K折交叉验证和CV交叉验证区别是什么 python 机器学习
2023-03-06 19:56

回答 2 已采纳该回答引用ChatGPT K折交叉验证和CV（Cross Validation）交叉验证是同一概念的两种不同叫法，它们指的是一种常用的评估机器学习模型性能的方法。在K折交叉验证中，将数据集随机分成
机器学习使用xgboost模型，报错：输入的数据有inf和nan？ python 机器学习深度学习
2023-01-29 20:23

回答 2 已采纳 XGBoost 默认是不能处理包含 inf 和 nan 的数据的，你需要先检测并处理掉数据中的无穷大或非数字值。如果数据确实包含过大的浮点数导致了此类问题，你可以考虑对数据进行对数处理来减小数值的范
深入解析K折交叉验证：原理、应用及优化策略(python实现代码详解)
2024-04-21 18:42

青春之我_XP的博客本文深度解析K折交叉验证这一重要机器学习工具，从理论概念出发，全面阐述其在提升模型泛化能力、模型性能评估与超参数优选等方面的关键作用。尤其聚焦于如何在K折交叉验证执行过程中记录并精准定位那些对应最高模型...
国内机器学习的团队或人中研究材料问题的有哪些有问必答测试工具
2022-03-13 23:52

回答 2 已采纳基本上名校靠前的都很强，你可以去看材料的学校排名
详细介绍机器学习中的7种交叉验证方法
2022-02-13 23:00

AI蜗牛车的博客来源：机器学习社区、数据派THU 本文约3400字，建议阅读10分钟本文与你分享7种最常用的交叉验证技术及其优缺点，提供了每种技术的代码片段。在任何有监督机器学习项目的模型构建阶段，我们...
机器学习-特征选择：如何使用交叉验证精准选择最优特征？
2023-09-28 20:51

笑不语的博客这些交叉验证方法都有其适用的场景和优劣势，根据具体的问题和数据集特点选择最合适的交叉验证方法能够更准确地评估模型的性能，并优化特征选择和模型参数调优等任务。从结果可以看出，单独的age训练出的模型结果要...
没有解决我的问题, 去提问