划分的训练集和训练时的训练集不一样

# 分离特征和目标变量
y = '23h结果'
X = [x for x in data.columns if x not in [y, '23h结果']]
#划分数据
X_train, X_test, y_train, y_test = train_test_split(data[X], data[y], test_size=0.2,
                                                    random_state=1)
# 定义评价指标
def evaluate(y_true, y_pred):
    mae = mean_absolute_error(y_true, y_pred)
    mse = mean_squared_error(y_true, y_pred)
    rmse = np.sqrt(mse)
    r2 = r2_score(y_true, y_pred)

    return mae, mse, rmse, r2


# 定义参数范围
params = {
    'boosting_type': ['gbdt', 'dart', 'goss'],
    'num_leaves': list(range(10, 81, 10)),
    'learning_rate': [0.01, 0.05, 0.1],
    'n_estimators': list(range(50, 401, 50)),
    'subsample': [0.5, 0.7, 0.9],
    'reg_alpha': [0, 0.1, 0.5],
    'reg_lambda': [0, 0.1, 0.5]}

# 初始化所有特征的按重要性降序排序列表
feature_importance = X_train.columns.values.tolist()
# 计算所有特征的初始评价指标
params = {
    'objective': 'regression',
    'metric': ['mae', 'mse', 'rmse', 'r2']
}

lgb_train = lgb.Dataset(data[X], data[y])
eval_results = {}

gbm = lgb.train(params,
                lgb_train,
                num_boost_round=50,
                evals_result=eval_results,
                verbose_eval=True,
                early_stopping_rounds=5,
                valid_sets=[lgb_train])

# 初始化特征评价指标列表
mae_list = [mean_absolute_error(y_test, gbm.predict(X_test))]
mse_list = [mean_squared_error(y_test, gbm.predict(X_test))]
rmse_list = [np.sqrt(mse_list[0])]
r2_list = [r2_score(y_test, gbm.predict(X_test))]
feature_importance = pd.DataFrame({'feature': X, 'importance': gbm.feature_importance()})
n_selected_features = len(X)

# 循环递归特征消除
while n_selected_features > 1:
    # 训练模型并在测试集上进行评估
    lgb_train = lgb.Dataset(data[X], data[y])
    gbm = lgb.train(params,
                    lgb_train,
                    num_boost_round=50,
                    evals_result=eval_results,
                    verbose_eval=False,
                    early_stopping_rounds=5,
                    valid_sets=[lgb_train])

    # 更新测试集
    X_test = data[X].loc[y_test.index]
    y_test = data[y].loc[y_test.index]

    # 记录评价指标
    mae_list.append(mean_absolute_error(y_test, gbm.predict(X_test)))
    mse_list.append(mean_squared_error(y_test, gbm.predict(X_test)))
    rmse_list.append(np.sqrt(mse_list[-1]))
    r2_list.append(r2_score(y_test, gbm.predict(X_test)))

    # 输出每次迭代的评价指标
    print(f'n_features = {n_selected_features}, '
          f'MAE = {mae_list[-1]:.4f}, '
          f'MSE = {mse_list[-1]:.4f}, '
          f'RMSE = {rmse_list[-1]:.4f}, '
          f'r2_score = {r2_list[-1]:.4f}')

    # 取出最不重要的特征，并更新X和n_selected_features
    least_important_feature = feature_importance.loc[feature_importance['importance'].idxmin(), 'feature']
    X.remove(least_important_feature)
    n_selected_features -= 1
    feature_importance = feature_importance[feature_importance['feature'] != least_important_feature]
    least_important_features = []

我在进行递归特征消除时，运行如下代码后，在运行中出现了如下信息：[LightGBM] [Info] Number of data points in the train set: 450, number of used features: 18，是代表我用450例数据进行了训练集吗？可是我将450例数据分成了训练集和测试集，理论上不应该时390例数据作为训练集吗？是上述代码有什么问题吗？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
m0_73677170 2023-08-31 14:49
关注
@CSDN-Ada助手

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

机器学习库sklearn之怎么划分训练集和测试集
2018-09-16 15:24

wuzhiwuweisun的博客训练建模 -> 模型评估 -> 预测，分类。最开始的是获取数据，sklearn已经给出很多的数据集，当然也可以通过sklearn自己创建。 Sklearn里给出的数据集如下：这里具体怎么调用和创建可以参考...
如何划分训练集和测试集
2020-09-27 15:56

Mr.小蔡的博客 train_test_split()是sklearn.model_selection中的分离器函数，用于将数组或矩阵划分为训练集和测试集，函数样式为： X_train, X_test, y_train, y_test = train_test_split(train_data, train_target, test_size, ...
训练集、验证集和测试集
2020-06-23 19:59

skyHdd的博客 训练集、验证集和测试集
划分训练集和测试集的方法及sklearn实现
2018-06-27 10:42

Alinawly的博客 1.留出法（hold-out）直接将数据集D划分为两个互斥的集合，训练集S、测试集T，用S训练模型，用T来评估其测试误差。需要注意划分时尽可能保持数据分布的一致性，保持样本类别比例相似。可采用分层采样的方式。在使用...
python 机器学习划分训练集/测试集/验证集
2019-01-10 18:21

啊嘞嘞嘞嘞的博客 1.留出法（hold-out）直接将数据集D划分为两个互斥的集合，训练集S、测试集T，用S训练模型，用T来评估其测试误差。需要注意划分时尽可能保持数据分布的一致性，保持样本类别比例相似。可采用分层采样的方式。在使用...
[深度学习-2.1] 训练集、验证集和测试集
2019-05-17 15:41

Lucky_Go的博客为什么要设置训练集、验证集和测试集在训练一个神经网路的时候，通常我们最初并不知道怎么样的超参数配置才能让我得到一个高性能的网络，这些超参数包括神经网络的层数，每一层的神经元数量，每层的激活函数...
【Python机器学习】Sklearn train_test_split 随机划分训练集和测试集
2020-03-16 17:30

小猪课堂的博客 sklearn.model_selection.train_test_split随机划分训练集和测试集一般形式： train_test_split是交叉验证中常用的函数，功能是从样本中随机的按比例选取train data和testdata，形式为： X_train,X_test, y_train, ...
多模态模型学习1——CLIP对比学习语言-图像预训练模型
2023-04-05 15:14

Bubbliiiing的博客 CLIP的全称是Contrastive Language-Image Pre-Training，中文是对比语言-图像预训练，是一个预训练模型，简称为CLIP。该模型是 OpenAI 在 2021 年发布的，最初用于匹配图像和文本的预训练神经网络模型，这个任务在多...
神经网络训练集准确率低,神经网络训练结果分析
2022-10-07 22:42

aifans_bert的博客就是把样本数据分为训练集和测试集，训练集用来训练神经网络，测试集用来验证模型。
预训练数据指南：衡量数据年龄、领域覆盖率、质量和毒性的影响
2024-09-16 11:53

羽星_s的博客预训练是开发高性能语言模型（LM）的初步和基本步骤。尽管如此，预训练数据的设计却严重缺乏记录，而且往往是以缺乏经验支持的直觉为指导。为了解决这个问题，我们对28个1.5B参数的Decoder only模型进行了预训练，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月31日

划分的训练集和训练时的训练集不一样

2条回答 默认 最新

问题事件

2条回答默认最新