机器学习决策树鸢尾花数据集，绘制决策边界，出现相同代码相同数据多次运行，结果不一致的问题

练习机器学习中，采用决策树将鸢尾花的数据进行分类，并绘制决策边界，代码如下：

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
iris = datasets.load_iris()
x = iris.data[:,2:]
y = iris.target
from sklearn.tree import DecisionTreeClassifier
dt_clf = DecisionTreeClassifier(max_depth = 2,criterion = 'entropy')
dt_clf.fit(x,y)

def plot_decision_boundary(model,axis):
    x0,x1 = np.meshgrid(
        np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*200)),
        np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*200))
    )
    
    x_new = np.c_[x0.ravel(),x1.ravel()]
    y_predict = model.predict(x_new)
    zz = y_predict.reshape(x0.shape)
    
    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])
    plt.contourf(x0,x1,zz,cmap = custom_cmap)

plot_decision_boundary(dt_clf,axis= [0.5,7.5,0,3])
plt.scatter(x[y==0,0],x[y==0,1])
plt.scatter(x[y==1,0],x[y==1,1])
plt.scatter(x[y==2,0],x[y==2,1])
plt.show() # 这个结果有点不对 ，但我又不知道哪里搞错了

第一次运行出现了下图所示的分类结果：

第二次及以后运行时出现了下图的分类结果：

我想知道明明是相同的数据，相同的代码，只是运行先后顺序不同，为什么会出现上下两个图之间的完全不同的分类结果，并且出现哪种分类结果还有一定的随机性？我的代码里也没有随机数。虽然非参数学习对于数据依赖非常严重，但是我的数据也没有发生更改啊，很奇怪。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
SmallAntJ 2022-02-04 03:53
关注
sklearn.tree.DecisionTreeClassifier()在进行分支的时候特征选择是随机的，即使是splitter=”best”的时候。打印dt_clf.feature_importances_的话就会看到有两种不同的结果，对应两种决策边界。sklearn.tree.DecisionTreeClassifier的函数说明中明确说：

random_state：int, RandomState instance or None, default=None
Controls the randomness of the estimator. The features are always randomly permuted at each split, even if splitter is set to "best". When max_features < n_features, the algorithm will select max_features at random at each split before finding the best split among them. But the best found split may vary across different runs, even if max_features=n_features. That is the case, if the improvement of the criterion is identical for several splits and one split has to be selected at random. To obtain a deterministic behaviour during fitting, random_state has to be fixed to an integer. See Glossary for details.

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1

无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

机器学习决策树鸢尾花数据集，绘制决策边界，出现相同代码相同数据多次运行，结果不一致的问题 python 决策树机器学习
2022-02-03 21:18

回答 1 已采纳 sklearn.tree.DecisionTreeClassifier()在进行分支的时候特征选择是随机的，即使是splitter=”best”的时候。打印dt_clf.feature_importa
Python机器学习基于决策树的鸢尾花分类预测 python 决策树机器学习
2022-10-17 17:38

回答 2 已采纳给你找了一篇非常好的博客，你可以看看是否有帮助，链接：Python机器学习零基础理解决策树分析
如何调用训练好的机器学习模型处理新数据集？人工智能数据挖掘机器学习
2022-02-07 01:05

回答 1 已采纳直接加载模型然后对新数据集进行预测啊，结果就是0或者1，然后把结果按照之前训练的数据集格式写入一个新的csv，这就是相当于打上标签了，但是这个标签不一定是全部对的，除非你能保证你的模型推理结果一定是正
【机器学习】逻辑回归案例二：鸢尾花数据分类，决策边界绘制逐步代码讲解
2021-12-14 16:52

lys_828的博客逻辑回归案例二：鸢尾花数据分类，决策边界绘制逐步代码讲解1 数据加载2 数据EDA3 模型创建及应用3.1 数据切分3.2 创建模型与分类3.3 决策边界绘制3.3.1 二分类决策边界绘制3.3.2 多分类决策边界绘制3.3.3 三维决策...
模仿鸢尾花数据的交叉验证时，如何以自己导入的数据替代iris.data, iris.target？ python 决策树有问必答机器学习
2021-12-11 15:30

回答 2 已采纳问题分析：iris.data 类型是一个数据框iris.target 类型是一pandas.Seris 序列解决办法：1、首先用data=pd.read_csv() 方法读取数据集如：# 导入txt
机器学习提取数据集问题 python 机器学习
2023-02-14 23:33

回答 3 已采纳数据清洗，用正则匹配清洗掉就行了。或者读数据时用a.startswith('>Negative')判断下。
决策树的代码实现报错不能运行是什么原因 python 机器学习
2023-03-15 10:07

回答 3 已采纳 matplotlib这个包卸载重装，版本不兼容应该我的这个包版本是3.2.2可以用，你可以换这个包试试看 pip uninstall matplotlib pip install matplotlib
【机器学习】决策树案例二：利用决策树进行鸢尾花数据集分类预测
2021-12-20 16:54

lys_828的博客利用决策树进行鸢尾花数据集分类预测2 利用决策树进行鸢尾花数据集分类预测2.1 导入模块与加载数据2.2 划分数据2.3 模型创建与应用2.4 模型可视化手动反爬虫，禁止转载：原博地址 ...
鸢尾花数据集的使用举例子 python 机器学习
2023-04-17 17:24

回答 3 已采纳 鸢尾花数据集（部分），共计150条记录，包含 setosa,versicolor,virginica 三种花型。示例代码如下： # coding: utf-8 from sklearn.neighb
关于决策边界上点的一些问题人工智能数据挖掘机器学习
2022-02-27 18:19

回答 1 已采纳对于判别式模型来说，一般决策边界上的样本比较有价值。例如支持向量机只取决于离决策边界最近的样本，这些样本叫做支持向量；但对于生成式模型来说，并不依靠决策边界进行决策，所以样本一视同仁，例如各种概率模型
#机器学习，一个模型在不同数据集上训练，然后测试得出来的结果比如mae。它们之间可以比较吗？ python 机器学习
2021-07-20 09:45

回答 2 已采纳没有比较的意义，参考不一样
机器学习与深度学习——通过决策树算法分类鸢尾花数据集iris求出错误率画出决策树并进行可视化
2023-05-01 13:19

星川皆无恙的博客 决策树是一种常用的机器学习算法，它可以对数据集进行分类或回归分析。决策树的结构类似于一棵树，由节点和边组成。每个节点代表一个特征或属性，每个边代表一个判断或决策。从根节点开始，根据特征的不同取值，不断...
机器学习多次重复实验得到的AUC平均值怎么画出ROC曲线？人工智能数据挖掘机器学习
2020-05-25 11:27

回答 1 已采纳你在每次实验时需要保存下fpr和tpr, 然后可以做个平均化处理，我这里是用的类似宏平均的处理。希望能帮到你。 import numpy as np from scipy import int
机器学习项目实战--基于鸢尾花数据集（python代码，多种算法对比：决策树、SVM、k近邻）
2019-04-18 23:22

西南交大-Liu_z的博客 机器学习项目实战----基于鸢尾花数据集（python代码，多种算法对比：决策树、SVM、k近邻） 1、项目介绍 鸢尾花数据集是机器学习入门的一个十分经典的数据集，这里依然简单的介绍一下这个项目是做什么的，通过花萼...
机器学习-决策树概述及对鸢尾花数据分类python实现利用graphviz模块画出决策树
2022-07-15 15:13

菜菜小硕的博客 决策树（decisiontree）是一种基本的分类与回归方法，在分类问题中，表示基于特征对实例进行分类的过程。学习时，利用训练数据，根据损失函数最小化的原则建立决策树模型；预测时，对新的数据，利用决策树模型进行...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月3日

悬赏问题

¥15 微信会员卡等级和折扣规则
¥15 微信公众平台自制会员卡可以通过收款码收款码收款进行自动积分吗
¥15 随身WiFi网络灯亮但是没有网络，如何解决？
¥15 gdf格式的脑电数据如何处理matlab
¥20 重新写的代码替换了之后运行hbuliderx就这样了
¥100 监控抖音用户作品更新可以微信公众号提醒
¥15 UE5 如何可以不渲染HDRIBackdrop背景
¥70 2048小游戏毕设项目
¥20 mysql架构，按照姓名分表
¥15 MATLAB实现区间[a,b]上的Gauss-Legendre积分

机器学习决策树鸢尾花数据集，绘制决策边界，出现相同代码相同数据多次运行，结果不一致的问题

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新