关于xgboost.train()和xgboost.XGBClassifier().fit()的预测输出问题

问题：在用xgboost做多分类学习时遇到了问题，参数均一样，训练集和验证集也是一样的，评估用的是自己写的评估函数ndcg算法，但是用xgb.train()和XGBClassifier().fit()后评估打分的差距相差太大，想问是predict的结果不一样嘛？为什么会有这种情况出现？

# 数据集整理均是一样的
X_train, X_test, y_train, y_test = train_test_split(xtrain_new,ytrain_new,test_size=0.2,random_state=RANDOM_STATE)
train_xgb = xgb.DMatrix(X_train, label= y_train)
test_xgb = xgb.DMatrix(X_test, label = y_test)

sklearn接口：_

# 用sklearn接口
xgb1 = XGBClassifier(max_depth=6,# 构建树的深度
                     learning_rate=0.1,# 如同学习率
                     n_estimators=100,#决策树数量
                     silent=False,
                     objective='multi:softprob',
                     booster='gbtree',
                     num_class=12,# 类别数
                     n_jobs=4,
                     gamma=0.2,
                     min_child_weight=1,
                     subsample=0.8,# 随机采样训练样本
                     colsample_bytree=0.7,# 生成树列采样
                     seed=RANDOM_STATE)# 随机种子

xgb_bst1 = xgb1.fit(X_train,y_train)
y_pred = xgb_bst1.predict(X_test)
test_ndcg_score = ndcg_score(y_test, y_pred, k=k_ndcg)
print(test_ndcg_score) #评估打分

结果：

下面是原生接口：

# 下面是原生接口，参数也是一样
params={
    'max_depth':6,# 构建树的深度，越大越容易过拟合
    'eta':0.1,# 如同学习率
    'num_round':100,#决策树数量
    'objective':'multi:softprob',# 多分类的问题
    'booster':'gbtree',
    'num_class':12,# 类别数，与 multisoftmax 并用
    'n_jobs':4,
    'gamma':0.2,# 用于控制是否后剪枝的参数,越大越保守
    'min_child_weight':1,
    'subsample':0.8,# 随机采样训练样本
    'colsample_bytree':0.7,
    'seed':RANDOM_STATE# 随机种子
}
watchlist = [ (train_xgb,'train'), (test_xgb, 'test') ]
# 训练模型
xgb2 = xgb.train(params,
                train_xgb,
                params['num_round'],
                watchlist,
                feval = customized_eval,
                verbose_eval = 3,
                early_stopping_rounds = 5)
# 预测模型评估
y_pred = np.array(xgb2.predict(test_xgb))
test_ndcg_score = ndcg_score(y_test, y_pred, k=k_ndcg)
print(test_ndcg_score)# 评估打分

结果：

ndcg_score函数是自己写的，multi:softprob的输出应该是一个概率矩阵，不明白为什么评估差距很大，希望有人能解答！！谢谢！！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
baiyaoqian 2020-11-04 13:10
关注
使用XGBClassifier()时，预测概率是用的 predict_proba()但你用的是predict()

解决 1

无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

train.py与test.py的问题深度学习
2022-09-15 10:58

回答 2 已采纳这个是可以自己指定的。一般train.py的p，r，map是验证集的评估结果，test.py是测试集的评估结果。验证集和测试集可以一样，也可不一样。
module 'tensorflow._api.v2.train' has no attribute 'AdagradOptimizer' python tensorflow
2021-08-25 01:57

回答 1 已采纳你的代码应该是1.x版本的，但是你的环境是2.x版本的就这样了，函数名和接口变了，要么去查一下接口名变成什么了，要么就新建个1.x的环境运行
yolov5在跑train.py遇到的问题 python 深度学习目标检测
2022-05-08 16:54

回答 2 已采纳路径不对呗，你这么放置数据集的话，应该是: train: coco128/coco128/images/train1207 val: coco128/coco128/images/val1207
gcForest+++xgboost的树木的个数++train和fit的区别
2019-01-10 14:17

lusic01的博客 xgboost 逻辑回归：objective参数（reg:logistic,binary:logistic,binary:...熟悉xgboost的小伙伴都知道，它在训练模型时，有train（）方法和fit（）方法，两种方法都是用于构建模型的，然而在使用过程中有什么不...
model.fit和model.evaluate作用 python 机器学习
2022-12-14 20:00

回答 2 已采纳下面是详细讲解，望采纳，有问题可以交流在使用机器学习模型时，一般会使用 model.fit() 来训练模型(也就是拟合数据)，然后使用 model.evaluate() 来评估模型的性能。 model
关于transfoems.ToTensor。mxnet的数据布局问题 mxnet python 计算机视觉
2022-07-30 22:52

回答 1 已采纳 hwc更适合在cpu上计算，而chw更适合在gpu上进行运算，跟充分利用数据并行运算有关系
facenet中的train_tripletloss.py报错 python 人工智能
2022-06-07 10:28

回答 1 已采纳 embeddings为4096，后面的为3Xargs.embedding_size=384？4096无法整除以384，所以是无法reshape的，所以你应该是改了什么参数了，改回去看看
XGboost参数、案例
2024-01-06 13:57

TravelLight92的博客本文不含XGboost的Loss定义、分裂原理，但会讲一下比较难理解的，需要对原理非常清楚，不然你可能不知道我要表达的意思--->主要写一些难懂的参数解释和实际应用，顺便做个小笔记，自己忘了也可以来抄一下，因参数很...
关于#python#的问题：data.files python 神经网络
2022-11-29 17:16

回答 1 已采纳没有查到对应的files方法，不知你要的是不是tofile()方法
train.py: error怎么解决 python 深度学习神经网络
2021-06-04 16:22

回答 1 已采纳配置文件路径的参数没传，运行时输入一下命令： python train.py --cfg '配置文件的路径名'
关于fasterrcnn的train.py报错“段错误，核心已转储” pytorch 机器学习深度学习
2022-04-15 11:00

回答 1 已采纳错误请截取完整错误信息，就一个段错误，谁知道你是哪里的段错误
深度剖析集成学习Xgboost
2022-07-26 23:08

「 25' h 」的博客 Xgboost 3.0 原理概述 3.0.1 基本思想和特点 3.1 参数概况 3.1.0 参数建议 3.1.1 Xgboost实现的sklearn接口 3.1.2 Xgboost原生库 3.2 objective损失函数 3.3 迭代过程参数 3.3.1 num_boost_round&eta 3.3.2 base_...
关于keras 对模型进行训练 train_on_batch参数和模型输出的关系人工智能机器学习深度学习神经网络
2020-03-27 16:24

回答 1 已采纳 https://blog.csdn.net/weixin_42886817/article/details/99855287
机器学习分类算法之XGBoost（集成学习算法）
2022-02-14 10:46

王小王-123的博客走进XGBoost 什么是XGBoost？ XGBoost树的定义 XGBoost核心算法正则项：树的复杂程度 XGBoost与GBDT有什么不同 XGBoost需要注意的点 XGBoost重要参数详解调参步骤及思想 XGBoost代码案例相关性分析 n_...
机器学习（19）---XGBoost入门
2023-09-24 22:54

冒冒菜菜的博客 1. 我们有两种方式使用我们的xgboost库。第一种方式是直接使用xgboost库自己的建模流程：2. 其中最核心的，是DMtarix()这个读取数据的类，以及train()这个用于训练的类。与sklearn把所有的参数都写在类中的方式不同...
没有解决我的问题, 去提问

悬赏问题

¥15 fluent的在模拟压强时使用希望得到一些建议
¥15 STM32驱动继电器
¥15 Windows server update services
¥15 关于#c语言#的问题：我现在在做一个墨水屏设计，2.9英寸的小屏怎么换4.2英寸大屏
¥15 模糊pid与pid仿真结果几乎一样
¥15 java的GUI的运用
¥15 Web.config连不上数据库
¥15 我想付费需要AKM公司DSP开发资料及相关开发。
¥15 怎么配置广告联盟瀑布流
¥15 Rstudio 保存代码闪退

关于xgboost.train()和xgboost.XGBClassifier().fit()的预测输出问题

2条回答 默认 最新

悬赏问题

2条回答默认最新