机器学习决策树鸢尾花数据集，绘制决策边界，出现相同代码相同数据多次运行，结果不一致的问题

练习机器学习中，采用决策树将鸢尾花的数据进行分类，并绘制决策边界，代码如下：

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
iris = datasets.load_iris()
x = iris.data[:,2:]
y = iris.target
from sklearn.tree import DecisionTreeClassifier
dt_clf = DecisionTreeClassifier(max_depth = 2,criterion = 'entropy')
dt_clf.fit(x,y)

def plot_decision_boundary(model,axis):
    x0,x1 = np.meshgrid(
        np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*200)),
        np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*200))
    )
    
    x_new = np.c_[x0.ravel(),x1.ravel()]
    y_predict = model.predict(x_new)
    zz = y_predict.reshape(x0.shape)
    
    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])
    plt.contourf(x0,x1,zz,cmap = custom_cmap)

plot_decision_boundary(dt_clf,axis= [0.5,7.5,0,3])
plt.scatter(x[y==0,0],x[y==0,1])
plt.scatter(x[y==1,0],x[y==1,1])
plt.scatter(x[y==2,0],x[y==2,1])
plt.show() # 这个结果有点不对 ，但我又不知道哪里搞错了

第一次运行出现了下图所示的分类结果：

第二次及以后运行时出现了下图的分类结果：

我想知道明明是相同的数据，相同的代码，只是运行先后顺序不同，为什么会出现上下两个图之间的完全不同的分类结果，并且出现哪种分类结果还有一定的随机性？我的代码里也没有随机数。虽然非参数学习对于数据依赖非常严重，但是我的数据也没有发生更改啊，很奇怪。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
SmallAntJ 2022-02-04 03:53
关注
sklearn.tree.DecisionTreeClassifier()在进行分支的时候特征选择是随机的，即使是splitter=”best”的时候。打印dt_clf.feature_importances_的话就会看到有两种不同的结果，对应两种决策边界。sklearn.tree.DecisionTreeClassifier的函数说明中明确说：

random_state：int, RandomState instance or None, default=None
Controls the randomness of the estimator. The features are always randomly permuted at each split, even if splitter is set to "best". When max_features < n_features, the algorithm will select max_features at random at each split before finding the best split among them. But the best found split may vary across different runs, even if max_features=n_features. That is the case, if the improvement of the criterion is identical for several splits and one split has to be selected at random. To obtain a deterministic behaviour during fitting, random_state has to be fixed to an integer. See Glossary for details.

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1

无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【机器学习】逻辑回归案例二：鸢尾花数据分类，决策边界绘制逐步代码讲解
2021-12-14 16:52

lys_828的博客逻辑回归案例二：鸢尾花数据分类，决策边界绘制逐步代码讲解1 数据加载2 数据EDA3 模型创建及应用3.1 数据切分3.2 创建模型与分类3.3 决策边界绘制3.3.1 二分类决策边界绘制3.3.2 多分类决策边界绘制3.3.3 三维决策...
【机器学习】决策树案例二：利用决策树进行鸢尾花数据集分类预测
2021-12-20 16:54

lys_828的博客利用决策树进行鸢尾花数据集分类预测2 利用决策树进行鸢尾花数据集分类预测2.1 导入模块与加载数据2.2 划分数据2.3 模型创建与应用2.4 模型可视化手动反爬虫，禁止转载：原博地址 ...
python利用c4.5决策树对鸢尾花卉数据集进行分类（iris）
2022-05-27 16:08

这个数据集是机器学习领域经典的多类分类问题实例，常用于教学和实验。以下是相关知识点的详细说明： 1. **鸢尾花卉数据集（Iris dataset）**：这是由统计学家Ronald Fisher在1936年收集的一个数据集，包含了三种...
鸢尾花数据集决策树模型
2020-03-11 21:21

鸢尾花数据集是机器学习领域的一个经典案例，它包含了三种不同类型的鸢尾花（Setosa，Versicolour，Virginica）的多个特征，如花瓣长度、花瓣宽度、萼片长度和萼片宽度。这个数据集由Ronald Fisher在1936年提出，...
鸢尾花数据集.xlsx
2024-11-07 19:23

鸢尾花数据集（Iris dataset）是机器学习和统计分类领域中经常使用的一个经典数据集。它由英国生物学家Fisher在1936年整理发布，这个数据集包含了150个样本，涵盖了三种不同的鸢尾花：Setosa（山鸢尾）、Versicolour...
决策树对鸢尾花数据两特征组合分类python代码的结果-决策树可视化
2023-02-10 16:49

在鸢尾花数据集上构建决策树模型，首先我们需要导入必要的Python库，例如`matplotlib.pyplot`用于绘图，`sklearn.datasets`用于加载数据，`sklearn.tree`中的`DecisionTreeClassifier`用于构建决策树模型，以及`...
机器学习项目实战--基于鸢尾花数据集（python代码，多种算法对比：决策树、SVM、k近邻）
2019-04-18 23:22

西南交大-Liu_z的博客 机器学习项目实战----基于鸢尾花数据集（python代码，多种算法对比：决策树、SVM、k近邻） 1、项目介绍鸢尾花数据集是机器学习入门的一个十分经典的数据集，这里依然简单的介绍一下这个项目是做什么的，通过花萼...
机器学习-决策树概述及对鸢尾花数据分类python实现利用graphviz模块画出决策树
2022-07-15 15:13

菜菜小硕的博客 决策树（decisiontree）是一种基本的分类与回归方法，在分类问题中，表示基于特征对实例进行分类的过程。学习时，利用训练数据，根据损失函数最小化的原则建立决策树模型；预测时，对新的数据，利用决策树模型进行...
04.决策树DTC数据分析及鸢尾数据集分析1
2022-08-03 23:12

【决策树DTC数据分析及鸢尾数据集分析】 决策树是一种广泛应用的机器学习算法，尤其在分类问题上表现优秀。它的基本思想是通过构建一棵树形结构，将数据集分割成多个子集，每个子集尽可能属于同一类别，从而实现对...
Iris鸢尾花数据集分类（二）—— 决策树
2025-09-25 17:56

Tulipe_M的博客本文介绍了决策树模型在鸢尾花分类任务中的应用。随后构建了DecisionTreeClassifier模型，分别采用文本和图形方式展示决策树逻辑。模型评估显示分类准确率达到100%，混淆矩阵和分类报告均证实模型在所有类别上表现...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月3日

机器学习决策树鸢尾花数据集，绘制决策边界，出现相同代码相同数据多次运行，结果不一致的问题

1条回答 默认 最新

问题事件

1条回答默认最新