决策树的相关问题，ID3算法

问题作用ID3算法，建立决策树第一个节点，写出信息增益求解过程。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-06-09 15:52
关注
引自免费微信小程序：皆我百晓生

为了解答这个问题，我们首先需要理解ID3算法的基本原理，然后根据给定的数据集计算信息增益，并确定决策树的第一个节点。ID3算法基于信息论中的熵和信息增益概念，选择具有最大信息增益的属性作为当前节点的分裂属性。

步骤一：计算数据集的熵

首先，我们计算整个数据集D的熵，记作Entropy(D)。熵是衡量不确定性的一种度量。对于分类问题，熵定义为：

[ Entropy(D) = -\sum_{i=1}^{c} p_i \log_2(p_i) ]

其中，(p_i)是第i类样本在数据集中所占的比例，c是类别总数。

在这个例子中，我们有两个类别：“Alive”和“Dead”，分别有7个和2个实例。

[ Entropy(D) = -\left( \frac{7}{9} \log_2\left(\frac{7}{9}\right) + \frac{2}{9} \log_2\left(\frac{2}{9}\right) \right) ]

步骤二：计算每个属性的信息增益

我们需要对每个可能的属性（"Broken wings", "Living status", "Wing area", "Fly wings weight"）计算信息增益。信息增益定义为：

[ Gain(D, A) = Entropy(D) - \sum_{v \in values(A)} \frac{|D_v|}{|D|} Entropy(D_v) ]

其中，A是属性，values(A)是A的所有可能值，(D_v)是属性A取值为v的子集。

计算"Broken wings"的信息增益

当"Broken wings"的值为0时，有2个实例（实例5和6），全部是“Dead”。因此，Entropy(0) = 0。
当"Broken wings"的值为1时，有2个实例（实例2和7），1个“Alive”，1个“Dead”。Entropy(1) = 1。
当"Broken wings"的值为2时，有5个实例（实例1, 3, 4, 8, 9），4个“Alive”，1个“Dead”。Entropy(2) = ( -\left( \frac{4}{5} \log_2\left(\frac{4}{5}\right) + \frac{1}{5} \log_2\left(\frac{1}{5}\right) \right) )

[ Gain(D, "Broken wings") = Entropy(D) - \left( \frac{2}{9} \cdot 0 + \frac{2}{9} \cdot 1 + \frac{5}{9} \cdot Entropy(2) \right) ]

计算其他属性的信息增益

同样的方式，我们可以计算出其他属性的信息增益。

步骤三：选择具有最大信息增益的属性

比较所有属性的信息增益，选择最大的一个作为决策树的根节点。

代码示例

import math # 数据集 data = [ {"Broken wings": 2, "Living status": "Alive", "Wing area": 2.5, "Fly wings weight": True}, {"Broken wings": 2, "Living status": "Alive", "Wing area": 2.5, "Fly wings weight": False}, {"Broken wings": 2, "Living status": "Alive", "Wing area": 2.6, "Fly wings weight": False}, {"Broken wings": 2, "Living status": "Alive", "Wing area": 3.0, "Fly wings weight": True}, {"Broken wings": 2, "Living status": "Dead", "Wing area": 3.2, "Fly wings weight": False}, {"Broken wings": 0, "Living status": "Alive", "Wing area": 0, "Fly wings weight": False}, {"Broken wings": 1, "Living status": "Alive", "Wing area": 0, "Fly wings weight": False}, {"Broken wings": 2, "Living status": "Alive", "Wing area": 3.4, "Fly wings weight": True}, {"Broken wings": 2, "Living status": "Alive", "Wing area": 2.0, "Fly wings weight": False} ] # 计算熵 def entropy(data): alive = dead = 0 for d in data: if d["Living status"] == "Alive": alive += 1 else: dead += 1 total = alive + dead if alive == 0 or dead == 0: return 0 return -(alive/total * math.log2(alive/total) + dead/total * math.log2(dead/total)) # 计算信息增益 def gain(data, attr): attr_values = set([d[attr] for d in data]) total_entropy = entropy(data) weighted_entropy = 0 for value in attr_values: subset = [d for d in data if d[attr] == value] weighted_entropy += len(subset)/len(data) * entropy(subset) return total_entropy - weighted_entropy # 计算各属性的信息增益 gains = {attr: gain(data, attr) for attr in data[0].keys() if attr != "Living status"} # 找到最大信息增益的属性 best_attr = max(gains, key=gains.get) print("Best attribute:", best_attr)

这个代码片段将计算并输出具有最大信息增益的属性，即决策树的第一个节点。请注意，实际运行此代码前，应确保环境已安装Python解释器。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

ID3画决策树，要求在图里了决策树算法
2021-06-12 22:21

回答 1 已采纳
决策树（decision tree）典型的算法都有哪些？人工智能决策树算法
2022-10-20 10:51

回答 1 已采纳 ID3 算法ID3 是最早提出的决策树算法，他就是利用信息增益来选择特征的。C4.5 算法他是 ID3 的改进版，他不是直接使用信息增益，而是引入“信息增益比”指标作为特征的选择依据。CART（Cla
ID3决策树实现分类 matlab python 决策树
2022-11-28 16:56

回答 9 已采纳其实比起决策树，我觉得你更需要数据集合，我有睡眠数据集合
决策树ID3算法实验报告广工（附源码java）
2019-01-10 19:53

《决策树ID3算法实验详解——以广工实验为例》 决策树ID3算法是一种经典的机器学习算法，常用于分类任务。本实验报告基于广东工业大学（广工）的人工智能课程，通过具体案例——UCI标准数据集Car-Evaluation，详细...
python实现id3算法实例 python 决策树机器学习
2022-05-14 14:14

回答 1 已采纳 from math import log import operator """ 函数说明:创建测试数据集 """ def createDataSet(): dataSet =
热误差建模用哪种决策树算法 python 机器学习算法
2023-04-01 15:30

回答 2 已采纳对三轴立式加工中心进行热误差建模需要先收集相关数据，如加工中心实际温度、测量误差、工作状态等，然后对这些数据进行处理和分析，得到热误差的模型。决策树算法可以用于热误差模型的构建和预测。针对选择哪种决策
基于优化决策树的三轴立式加工中心热误差建模 python 决策树算法
2023-04-05 14:18

回答 7 已采纳该回答引用于ChatGPT：以下是一个基于优化决策树的三轴立式加工中心热误差建模的 Python 实现: import numpy as np import pandas as pd from skl
决策树ID3\ID4算法实例源码
2021-04-16 16:43

决策树是一种常用的人工智能和机器学习算法，用于分类和回归任务。ID3（Iterative Dichotomiser 3）是决策树算法的早期版本，由Ross Quinlan于1986年提出，主要用于分类问题。ID4是ID3的后续改进，增加了对连续属性...
使用sklearn的决策树来分类鸢尾花数据时为啥生成的决策树PDF闪退？ python sklearn 决策树有问必答
2022-03-25 09:23

回答 3 已采纳在最后加这两行试试 import os os.system('iris.pdf')
数据挖掘 决策树分类结果报错 python 决策树数据挖掘
2022-11-27 16:16

回答 2 已采纳额，好吧，你重新提交了一个问题，那就在这个问题上跟进你的解决情况吧
机器学习决策树鸢尾花数据集，绘制决策边界，出现相同代码相同数据多次运行，结果不一致的问题 python 决策树机器学习
2022-02-03 21:18

回答 1 已采纳 sklearn.tree.DecisionTreeClassifier()在进行分支的时候特征选择是随机的，即使是splitter=”best”的时候。打印dt_clf.feature_importa
决策树——ID3算法
2021-01-20 12:41

决策树是一种常用的人工智能和机器学习模型，用于分类和回归任务。ID3（Iterative Dichotomiser 3）算法是决策树构建的基础方法，由Ross Quinlan于1986年提出。ID3算法的核心思想是利用信息增益来选择最优属性，逐步...
软件项目管理决策树问题其他
2022-06-12 19:10

回答 2 已采纳第一张图里调研结果分两种情况：良好（45%）或不容乐观（55%）。当调研结果是良好的时候建大厂，结果是不容乐观的时候建小厂，整体EMV最高，所以才这样计算：0.45x106400+0.55x2400=
C45决策树算法 C45决策树算法
2022-04-15 23:31

C45决策树算法是机器学习领域中一种广泛使用的分类算法，它由Ross Quinlan在ID3算法的基础上发展而来，主要用于处理离散型数据。C45算法在分类问题中展现出高效、易于理解和解释的特点，使其成为数据挖掘和人工智能...
决策树ID3算法实验_数据集car_databases
2018-06-12 23:02

用python编写的决策树ID3算法，运用了Car-Evaluation的例子。BUG较少，综合了网上的优秀代码，并进一步形成自己的代码。代码基本有注释，风格良好，能够很快看懂。内含有比较规范的报告文档，包含所有流程图，说明图...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月9日

悬赏问题

¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 在虚拟机环境下完成以下，要求截图！
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见

决策树的相关问题，ID3算法

2条回答 默认 最新

步骤一：计算数据集的熵

步骤二：计算每个属性的信息增益

计算"Broken wings"的信息增益

计算其他属性的信息增益

步骤三：选择具有最大信息增益的属性

代码示例

问题事件

悬赏问题

2条回答默认最新