sklearn集成学习关于算法准确率的两个问题

在学习sklearn中的集成学习中遇到了两个问题：

集成学习中soft voting的准确率低于hard voting。
代码如下：

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
x,y = datasets.make_moons(n_samples = 500,noise = 0.3, random_state = 42)
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,random_state = 42)
from sklearn.ensemble import VotingClassifier
voting_clf = VotingClassifier(estimators = [
    ('log_clf',LogisticRegression()),
    ('svm_clf',SVC()),
    ('dt_clf',DecisionTreeClassifier())
],voting = 'hard')
voting_clf.fit(x_train,y_train)
voting_clf.score(x_test,y_test)
voting_clf2 = VotingClassifier(estimators = [
    ('log_clf',LogisticRegression()),
    ('svm_clf',SVC(probability = True)), #修改SVC参数
    ('dt_clf',DecisionTreeClassifier(random_state = 666))],voting = 'soft')
voting_clf2.fit(x_train,y_train)
voting_clf2.score(x_test,y_test)# soft 与hard 的结果都是0.904 很奇怪

集成学习中采用决策树的数量增多，准确率并没有提高。
代码如下：

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
x,y = datasets.make_moons(n_samples = 500,noise = 0.3, random_state = 42)
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,random_state = 42)
bagging_clf = BaggingClassifier(DecisionTreeClassifier(),
                            n_estimators =500, max_samples = 100,bootstrap = True)
# n_estimator 多少个子模型 max_samples看多少样本 bootstrap是否放回
%%time
bagging_clf.fit(x_train,y_train)# 500个决策树
bagging_clf.score(x_test,y_test)
single_dec_tree = DecisionTreeClassifier()
single_dec_tree.fit(x_train,y_train)# 1个决策树
single_dec_tree.score(x_test,y_test)
bagging_clf5000 = BaggingClassifier(DecisionTreeClassifier(),
                                n_estimators = 5000,max_samples = 100,bootstrap = True)
# 5000个决策树
%%time
bagging_clf5000.fit(x_train,y_train)
bagging_clf5000.score(x_test,y_test)
# 单个决策树的准确率为0.88，500个是0.928，5000个是0.912

这两个问题类似，因为从算法的原理上讲，soft的结果至少不会比hard的差，为啥结果会这样呢？
第二个问题中，子模型的数目增多，一定会使得整体的准确率提高，但是为啥决策树的数目增多，准确率不升反降？
难道存在一些子模型的准确率低于平均准确率吗？很奇怪

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
zkhll 2022-02-07 10:32
关注
第一个问题：
根据soft voting和hard voting的定义来看，soft是将所有模型预测样本为某一类别的概率的平均值作为标准，概率最高的对应的类型为最终的预测结果；而hard是根据少数服从多数来定最终结果。
如果某一子模型在这个问题上表现不好，那使用soft就会将这个子模型的结果也考虑进去，这就会大大影响整个集成模型的效果。此时如果使用hard，那就会直接忽略掉这个效果不好的子模型，从而使整个集成模型的效果变好。

第二个问题：
在这个问题中，楼主可能对模型存在一定误解，认为模型越多就越好，其实不然。举个简单的例子，当你的数据集较少时，你的决策树子树个数增加，这可能导致不同子树使用到的数据是相似甚至是相似的，这种情况下，增加子树就没有任何意义，甚至会出现过拟合现象。

对于模型而言，没有绝对的谁好谁坏，需要针对不同的数据集，不同的特征来选取合适的模型，这样才能得到比较好的效果。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月24日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月5日

悬赏问题

¥15 一个服务器已经有一个系统了如果用usb再装一个系统，原来的系统会被覆盖掉吗
¥15 使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时，终端显示出了sequence handled的进度条，但是并不出结果就自动终止回到命令提示行了是怎么回事：
¥15 前置放大电路与功率放大电路相连放大倍数出现问题
¥30 关于<main>标签页面跳转的问题
¥80 部署运行web自动化项目
¥15 腾讯云如何建立同一个项目中物模型之间的联系
¥30 VMware 云桌面水印如何添加
¥15 用ns3仿真出5G核心网网元
¥15 matlab答疑关于海上风电的爬坡事件检测
¥88 python部署量化回测异常问题

sklearn集成学习 关于 算法准确率的两个问题

1条回答 默认 最新

问题事件

悬赏问题

sklearn集成学习关于算法准确率的两个问题

1条回答默认最新