sklearn集成学习关于算法准确率的两个问题

在学习sklearn中的集成学习中遇到了两个问题：

集成学习中soft voting的准确率低于hard voting。
代码如下：

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
x,y = datasets.make_moons(n_samples = 500,noise = 0.3, random_state = 42)
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,random_state = 42)
from sklearn.ensemble import VotingClassifier
voting_clf = VotingClassifier(estimators = [
    ('log_clf',LogisticRegression()),
    ('svm_clf',SVC()),
    ('dt_clf',DecisionTreeClassifier())
],voting = 'hard')
voting_clf.fit(x_train,y_train)
voting_clf.score(x_test,y_test)
voting_clf2 = VotingClassifier(estimators = [
    ('log_clf',LogisticRegression()),
    ('svm_clf',SVC(probability = True)), #修改SVC参数
    ('dt_clf',DecisionTreeClassifier(random_state = 666))],voting = 'soft')
voting_clf2.fit(x_train,y_train)
voting_clf2.score(x_test,y_test)# soft 与hard 的结果都是0.904 很奇怪

集成学习中采用决策树的数量增多，准确率并没有提高。
代码如下：

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
x,y = datasets.make_moons(n_samples = 500,noise = 0.3, random_state = 42)
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,random_state = 42)
bagging_clf = BaggingClassifier(DecisionTreeClassifier(),
                            n_estimators =500, max_samples = 100,bootstrap = True)
# n_estimator 多少个子模型 max_samples看多少样本 bootstrap是否放回
%%time
bagging_clf.fit(x_train,y_train)# 500个决策树
bagging_clf.score(x_test,y_test)
single_dec_tree = DecisionTreeClassifier()
single_dec_tree.fit(x_train,y_train)# 1个决策树
single_dec_tree.score(x_test,y_test)
bagging_clf5000 = BaggingClassifier(DecisionTreeClassifier(),
                                n_estimators = 5000,max_samples = 100,bootstrap = True)
# 5000个决策树
%%time
bagging_clf5000.fit(x_train,y_train)
bagging_clf5000.score(x_test,y_test)
# 单个决策树的准确率为0.88，500个是0.928，5000个是0.912

这两个问题类似，因为从算法的原理上讲，soft的结果至少不会比hard的差，为啥结果会这样呢？
第二个问题中，子模型的数目增多，一定会使得整体的准确率提高，但是为啥决策树的数目增多，准确率不升反降？
难道存在一些子模型的准确率低于平均准确率吗？很奇怪

展开全部

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
zkhll 2022-02-07 02:32
关注
第一个问题：
根据soft voting和hard voting的定义来看，soft是将所有模型预测样本为某一类别的概率的平均值作为标准，概率最高的对应的类型为最终的预测结果；而hard是根据少数服从多数来定最终结果。
如果某一子模型在这个问题上表现不好，那使用soft就会将这个子模型的结果也考虑进去，这就会大大影响整个集成模型的效果。此时如果使用hard，那就会直接忽略掉这个效果不好的子模型，从而使整个集成模型的效果变好。

第二个问题：
在这个问题中，楼主可能对模型存在一定误解，认为模型越多就越好，其实不然。举个简单的例子，当你的数据集较少时，你的决策树子树个数增加，这可能导致不同子树使用到的数据是相似甚至是相似的，这种情况下，增加子树就没有任何意义，甚至会出现过拟合现象。

对于模型而言，没有绝对的谁好谁坏，需要针对不同的数据集，不同的特征来选取合适的模型，这样才能得到比较好的效果。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

编辑

预览

报告相同问题？

关注问题

提升knn算法的准确率 python 人工智能机器学习
2022-09-30 10:14

回答 5 已采纳首先，手写识别的关键是特征描述，如果这一步没有做好，用什么方法，怎么调参，也不会有好的结果。将图像像素值直接作为输入向量，原则上是不适当的。推荐实现方法如下：（1）首先，样本均匀，标准化，归一化，这些
sklearn能实现C4.5算法吗人工智能机器学习算法
2022-05-03 14:49

回答 1 已采纳 sklearn不太清楚，Matlab自带的分类工具箱我记得有C4.5？
xgboost算法处理数据出现两个准确率是什么意思(语言-python) python
2022-05-02 11:23

回答 1 已采纳这你高低不得看看源码..程序输出的部分的代码肯定输出了俩不一样的变量
sklearn之集成学习
2023-07-18 15:09

陪你看日出.的博客主要实战了sklearn提供的一些集成学习接口，适合有一定理论基础，想要实战的uu阅读。
关于#深度学习知识蒸馏算法loss函数计算#的问题？ python 人工智能深度学习
2022-08-12 06:57

回答 1 已采纳原论文是第一种，所以用第一种肯定没问题，第二种也有人用，主要是为了保证两个loss贡献差不多，毕竟softloss里有做平滑，所以都可以哈，还是要看哪种收敛更快，效果很好
关于#深度学习#的问题：用adaboost或者xgboost算法把pytorch上的三个网络集成 pytorch 深度学习神经网络
2023-02-19 07:19

回答 1 已采纳对于集成多个PyTorch模型，可以使用以下步骤： 1.定义数据集并进行数据预处理。 2.分别定义和训练每个模型。可以使用不同的超参数和损失函数来训练每个模型以提高模型的多样性。 3.在每个模型上进行
关于机器学习中knn算法的一些问题 python 机器学习
2022-05-21 07:34

回答 1 已采纳好家伙，你这特征数量真心不少。KNN的核心是计算距离，你这个特征这么多，计算的复杂度就会很高，不知道你用的距离算法，也不知道你CPU能不能受的住。减少特征的数量，比如颜色特征，看看能
机器学习分类算法之XGBoost（集成学习算法）
2022-02-14 02:46

王小王-123的博客 XGBoost核心算法正则项：树的复杂程度 XGBoost与GBDT有什么不同 XGBoost需要注意的点 XGBoost重要参数详解调参步骤及思想 XGBoost代码案例相关性分析 n_estimators（学习曲线） max_depth（学习曲线） ...
关于C语言编程算法的一个小问题 c语言算法
2022-03-26 13:00

回答 3 已采纳你好，a++是后置++，++a是前置++a++ 后置++是先使用，再++，比如：a=2； b=a++；先使用，再++，就是先把值给b，再自身++，最后b=2++a 前置++是先++，再使用，比如：
求解一个关于#多叉树算法#的问题改行学IT 算法
2023-01-10 14:08

回答 1 已采纳你可以用一个递归遍历，每个结点返回自己是否应该被删除，如果不是红叶结点就返回应该被删除而非叶子结点，则判断它的两个子树，如果它的子树中有一个返回的是不该被删除，那就保留；否则就删除我说的“是否被删除”
关于yolov5算法的问题，如何解决？人工智能深度学习
2023-02-25 01:13

回答 3 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ要研究yolov5算法在遮挡物体场景下的鲁棒性，需要掌握以下知识点和公式：深度学习基础知识：yolov5算法是基于深度学习技术的目标检测算法，因此需要掌握深度学习的基本概
模式识别和机器学习实战- 集成学习- Python实现 - AdaBoost算法
2022-04-05 05:06

**集成学习与AdaBoost算法详解** 集成学习是一种强大的机器学习技术，通过结合多个弱学习器形成一个强学习器。在本教程中，我们将专注于一种集成学习方法——AdaBoost（Adaptive Boosting）。AdaBoost是一种迭代...
人工智能机器学习常用算法总结及各个常用算法精确率对比
2020-10-15 04:37

常见的集成学习算法有随机森林、Boosting等。上述算法的精确率对比，通常需要依赖实验和具体的应用场景。在某些情况下，算法之间的精确率差异可能不大，但在其他情况下，一个算法可能会明显优于其他算法。精确率的...
sklearn集成学习之VotingClassifier
2021-12-01 01:08

风信子的猫Redamancy的博客在机器学习中，我们可以对KNN、逻辑回归、SVM、决策树、神经网络等预测的结果进行投票，少数服从多数最终决定预测结果。在sklearn中提供了一个...这是属于集成学习的一种。Voting Classifier分为Hard和Soft两种方式。
头歌机械学习实训答案第1关：利用sklearn构建集成学习模型
2024-06-21 07:55

hyy712的博客利用sklearn中的BaggingClassifier()、AdaBoostClassifier()、GradientBoostingClassifier()函数来构建Bagging、AdaBoost、GBDT集成分类器。base_estimator：object, default=None,适合于数据集的随机子集的基估计量...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月5日

悬赏问题

¥15 STS/eclipse导入gradle项目时报错如下
¥15 centos7.6进不去系统，卡在数字7界面
¥15 Tensorflow采用interpreter.allocate_tensors()分配内存出现ValueError: vector too long报错
¥15 使用CGenFF在线生成血红素辅基拓扑结构遇到问题
¥15 在fragment使用okhttp同步上传文件，能不能在fragment销毁后还可以继续上传文件？
¥20 matlab代码实现可达矩阵形成骨骼矩阵
¥15 关于地板的木纹和图库中的匹配的
¥30 机器学习预测疾病模型流程疑问
¥50 2048Python实现
¥15 使用ads进行低噪放仿真没有结果且不报错

sklearn集成学习 关于 算法准确率的两个问题

1条回答 默认 最新

问题事件

悬赏问题

sklearn集成学习关于算法准确率的两个问题

1条回答默认最新