HalvingGridSearchCV迭代次数问题

HalvingGridSearchCV设置factor=1.5，min_resources=500，数据集大小为1400，参数空间大小为25，感觉理论上可以迭代3次，但实际输出看起来只迭代了2次是为什么

500*1.5**2=1125
500*1.5**1=750

感觉应该还有一次n_resources为1125的迭代

后面试了试，限制数据集大小为1000，其余不变，也迭代了两次，这个感觉是合理的

1400个样本

from sklearn.ensemble import RandomForestRegressor
from sklearn.experimental import enable_halving_search_cv
from sklearn.model_selection import HalvingGridSearchCV,KFold,GridSearchCV,cross_validate
import numpy as np

param_grid_simple = {'n_estimators': [*range(50,100,10)]
                     , 'max_depth': [*range(15,25,2)]
                    }

reg = RandomForestRegressor(random_state=110,n_jobs=8,verbose=True)
cv = KFold(random_state=110,shuffle=True)

search = HalvingGridSearchCV(estimator=reg
                            ,param_grid=param_grid_simple
                            ,factor=1.5
                            ,min_resources=500
                            ,verbose = True
                            ,random_state=110
                            ,cv = cv
                            ,n_jobs=8)

search.fit(X[:1400,:],y[:1400])

输出

n_iterations: 2
n_required_iterations: 8
n_possible_iterations: 2
min_resources_: 500
max_resources_: 1400
aggressive_elimination: False
factor: 1.5
----------
iter: 0
n_candidates: 25
n_resources: 500
Fitting 5 folds for each of 25 candidates, totalling 125 fits
----------
iter: 1
n_candidates: 17
n_resources: 750
Fitting 5 folds for each of 17 candidates, totalling 85 fits
[Parallel(n_jobs=8)]: Using backend ThreadingBackend with 8 concurrent workers.
[Parallel(n_jobs=8)]: Done  34 tasks      | elapsed:    0.0s
[Parallel(n_jobs=8)]: Done  60 out of  60 | elapsed:    0.1s finished
HalvingGridSearchCV(cv=KFold(n_splits=5, random_state=110, shuffle=True),
                    estimator=RandomForestRegressor(n_jobs=8, random_state=110,
                                                    verbose=True),
                    factor=1.5, min_resources=500, n_jobs=8,
                    param_grid={'max_depth': [15, 17, 19, 21, 23],
                                'n_estimators': [50, 60, 70, 80, 90]},
                    random_state=110, verbose=True)

1000个样本

search.fit(X[:1000,:],y[:1000])

输出

n_iterations: 2
n_required_iterations: 8
n_possible_iterations: 2
min_resources_: 500
max_resources_: 1000
aggressive_elimination: False
factor: 1.5
----------
iter: 0
n_candidates: 25
n_resources: 500
Fitting 5 folds for each of 25 candidates, totalling 125 fits
----------
iter: 1
n_candidates: 17
n_resources: 750
Fitting 5 folds for each of 17 candidates, totalling 85 fits
[Parallel(n_jobs=8)]: Using backend ThreadingBackend with 8 concurrent workers.
[Parallel(n_jobs=8)]: Done  34 tasks      | elapsed:    0.0s
[Parallel(n_jobs=8)]: Done  90 out of  90 | elapsed:    0.1s finished
HalvingGridSearchCV(cv=KFold(n_splits=5, random_state=110, shuffle=True),
                    estimator=RandomForestRegressor(n_jobs=8, random_state=110,
                                                    verbose=True),
                    factor=1.5, min_resources=500, n_jobs=8,
                    param_grid={'max_depth': [15, 17, 19, 21, 23],
                                'n_estimators': [50, 60, 70, 80, 90]},
                    random_state=110, verbose=True)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
week@eight 2023-02-07 11:04
关注
该回答引用ChatGPT
HalvingGridSearchCV 只迭代了 2 次的原因可能如下
1、实际资源分配比预期少，导致没有达到最低资源限制，因此无法进行第三次迭代。
2、参数空间大小 25 可能已经在第二次迭代中覆盖了所有可能的参数值，不再需要进行第三次迭代。
3、可能已经找到了一个最优解，不再需要进一步的搜索，因此不再进行第三次迭代。
通过输出可以看到，实际的迭代次数为 2，其中的第一次迭代的样本数为 500，第二次迭代的样本数为 750。这是因为 aggressive_elimination 默认为 False，所以 HalvingGridSearchCV 算法不进行激进的消除，而是保证每次迭代的样本数量在因子 factor 和 min_resources 之间取值。因此，可以看到第二次迭代的样本数为 min_resources * factor，这是比较保守的选择。
另外，通过 n_required_iterations 和 n_possible_iterations 的值可以发现，理论上的迭代次数为 8 次，但实际的迭代次数为 2 次。原因是数据集的大小 1400 较小，因此不需要进行多次迭代。

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

AI机器学习基础：交叉验证与模型选择（k折交叉验证、分层抽样、时间序列交叉验证等）深度解析
2025-06-12 08:54

Clf丶忆笙的博客 ai机器学习模型评估是确保模型性能的关键环节。文章系统介绍了评估基础、指标体系和交叉验证技术，主要内容包括：评估基础：强调了模型评估的重要性，分类任务(准确率、精确率、召回率、F1分数)和回归任务(MSE、MAE...
Python机器学习中怎么做参数空间网格搜索_使用HalvingGridSearchCV
2026-04-06 00:03

qq_33003799的博客 TimeSeriesSplit），得手动传 cv 并确保子集逻辑自洽关键参数怎么设才不白跑HalvingGridSearchCV 的行为高度依赖三个参数协同，调错一个就容易搜偏或搜不完：factor：每轮保留前 1/factor 的组合。
常用超参数优化的方法
2025-01-23 16:32

亲持红叶的博客我们可以控制随机网格搜索的迭代次数，来控制整体被抽出的参数子空间的大小。实现随机网格搜索 sklearn中随机搜索的类是RandomizedSearchCV sklearn.model_selection.RandomizedSearchCV(estimator , param_...
Training dynamic & After training
2025-01-14 01:50

mifantangyuan的博客 HalvingGridSearchCV： Scikit-learn提供的一种高效网格搜索方法，通过逐步淘汰表现较差的组合来减少计算量。随机搜索 Random Search 原理定义超参数空间：为每个超参数指定一个分布（如均匀分布、对数均匀分布等...
对半网格搜索HalvingSearchCV
2024-02-01 10:55

恒c的博客对半网格搜索算法设计了一个精妙的流程，可以很好的权衡子集的大小与计算效率问题，我们来看具体的流程：1、首先从全数据集中无放回随机抽样出一个很小的子集d0，并在d0上验证全部参数组合的性能。根据d0上的...
【机器学习实战笔记 4】Scikit-Learn使用与进阶二
2025-05-18 15:22

Wilber的分享的博客其次，上述实例化逻辑回归模型时，我们适当提高了最大迭代次数，这是一般复杂数据建模时都需要调整的参数。二、评估器训练与过拟合实验接下来进行模型训练，并且尝试进行手动调参来控制模型拟合度。建模结果观察...
机器学习(十四)：超参数调优进阶_RandomizedSearchCV和HalvingSearchCV
2023-07-11 18:02

算法小陈的博客阅读完本篇文章后，您应该能够掌握到RandomizedSearchCV和HalvingSearchCV的基本概念和工作原理，并能够在具体的机器学习问题中，根据自身的需求和计算资源的限制，选择和使用合适的超参数搜索方法。此外，还将学
超参数搜索之网格搜索、并行搜索、随机搜索、对半网格搜索
2023-08-04 10:03

向云端UP的博客这种方法有两个优点，如果运行随机1000个迭代，那么将会探索每个超参数的1000个不同的值，而不是只探索少量的值，并且通过简单地设置迭代次数，可以更好地控制要分配给超参数搜索的计算预算。它相比于网格搜索有着更...
DAY12遗传算法
2025-05-04 22:53

stay night48的博客 # num_iterations：迭代次数，算法运行的最大循环次数。 # c1：认知学习因子，用于控制粒子向自身历史最佳位置移动的程度。 # c2：社会学习因子，用于控制粒子向全局最佳位置移动的程度。 # w：惯性权重，控制粒子...
别再只用GridSearchCV了！用Scikit-learn的嵌套交叉验证(Nested CV)给你的模型一个更靠谱的分数
2016-10-03 21:33

weixin_33709364的博客本文深入探讨了嵌套交叉验证(Nested CV)在模型评估中的重要性，揭示了传统GridSearchCV方法存在的系统性偏差问题。通过对比实验和实战技巧，展示了如何利用Scikit-learn实现嵌套交叉验证，从而获得更可靠的模型性能...
超参数优化 - 对半网格搜索HalvingSearchCV
2023-07-22 21:06

talle2021的博客任意子集的分布都与全数据集D的分布类似这一假设要成立是有条件的，当子集的分布越接近全数据集的分布，同一组参数在子集与全数据...对半网格搜索算法设计了一个精妙的流程，可以很好的权衡子集的大小与计算效率问题。
【Python机器学习】零基础掌握Hyper-parameter optimizers超参数优化器
2023-11-08 12:48

Mr数据杨的博客通过一系列的历史和现代案例，展示了如何使用Python中的各种超参数优化工具来解决实际问题。从古代的战争策略选择到现代的医疗诊断，超参数优化技术都能够提供帮助。模型选择和参数调优工具如和不仅在学术研究中占有...
机器学习 sklearn 中的超参数搜索方法
2023-12-07 22:10

小嗷犬的博客在实践中调参往往依赖人工来进行设置调整范围，然后使用机器在超参数范围内进行搜索，找到最优的超参数组合。在 sklearn 中，提供了四种超参数搜索方法： - `GridSearchCV` - `RandomizedSearchCV` - `...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 2月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月7日

HalvingGridSearchCV迭代次数问题

1400个样本

1000个样本

1条回答 默认 最新

问题事件

1条回答默认最新