weixin_45490561 2020-01-09 10:51 采纳率: 0%

已采纳

请问大佬们，我用python编写了一个id3算法，如何让让用户自己输入数据来验证这些数据对应的结果？

#--coding:GBK

-- coding: utf-8 --

#pip install matplotlib
from math import log

##创建数据集
def createDataSet():
"""
创建数据集
"""
dataSet = [['青年', '否', '否', '一般', '拒绝'],
['青年', '否', '否', '好', '拒绝'],
['青年', '是', '否', '好', '同意'],
['青年', '是', '是', '一般', '同意'],
['青年', '否', '否', '一般', '拒绝'],
['中年', '否', '否', '一般', '拒绝'],
['中年', '否', '否', '好', '拒绝'],
['中年', '是', '是', '好', '同意'],
['中年', '否', '是', '非常好', '同意'],
['中年', '否', '是', '非常好', '同意'],
['老年', '否', '是', '非常好', '同意'],
['老年', '否', '是', '好', '同意'],
['老年', '是', '否', '好', '同意'],
['老年', '是', '否', '非常好', '同意'],
['老年', '否', '否', '一般', '拒绝'],
]
featureName = ['年龄', '有工作', '有房子', '信贷情况']
# 返回数据集和每个维度的名称
return dataSet, featureName

##分割数据集
def splitDataSet(dataSet,axis,value):
"""
按照给定特征划分数据集
:param axis:划分数据集的特征的维度
:param value:特征的值
:return: 符合该特征的所有实例（并且自动移除掉这维特征）
"""

# 循环遍历dataSet中的每一行数据
retDataSet = []
for featVec in dataSet:
    if featVec[axis] == value:
        reduceFeatVec = featVec[:axis] # 删除这一维特征，切片不包括axis
        reduceFeatVec.extend(featVec[axis+1:]) #把aixs去掉之后的列表前后拼在一起
        retDataSet.append(reduceFeatVec)
return retDataSet#把去掉axis之后的列表返回

##计算信息熵

计算的始终是类别标签的不确定度

def calcShannonEnt(dataSet):
"""
计算训练数据集中的Y随机变量的香农熵
:param dataSet:
:return:
"""
numEntries = len(dataSet) # 实例的个数
labelCounts = {}
for featVec in dataSet: # 遍历每个实例，统计标签的频次
currentLabel = featVec[-1] # 表示最后一列，，为什么要等与最后一列
# 当前标签不在labelCounts map中，就让labelCounts加入该标签
if currentLabel not in labelCounts.keys():
labelCounts[currentLabel] =0
labelCounts[currentLabel] +=1

shannonEnt = 0.0#初始化香农熵,香农熵越小纯度越高
for key in labelCounts:
    prob = float(labelCounts[key]) / numEntries
    shannonEnt -= prob * log(prob,2) # log base 2，
return shannonEnt#返回列表的总香农熵

计算条件熵

def calcConditionalEntropy(dataSet,i,featList,uniqueVals):
"""
计算x_i给定的条件下，Y的条件熵
:param dataSet: 数据集
:param i: 维度i
:param featList: 数据集特征列表
:param unqiueVals: 数据集特征集合
:return: 条件熵
"""
ce = 0.0
for value in uniqueVals:
subDataSet = splitDataSet(dataSet,i,value)
prob = len(subDataSet) / float(len(dataSet)) # 极大似然估计概率
ce += prob * calcShannonEnt(subDataSet) #∑pH(Y|X=xi) 条件熵的计算
return ce

##计算信息增益
def calcInformationGain(dataSet,baseEntropy,i):
"""
计算信息增益
:param dataSet: 数据集
:param baseEntropy: 数据集中Y的信息熵
:param i: 特征维度i
:return: 特征i对数据集的信息增益g(dataSet | X_i)
"""
featList = [example[i] for example in dataSet] # 第i维特征列表
uniqueVals = set(featList) # 换成集合 - 集合中的每个元素不重复
newEntropy = calcConditionalEntropy(dataSet,i,featList,uniqueVals)#计算条件熵，
infoGain = baseEntropy - newEntropy # 信息增益 = 信息熵 - 条件熵
return infoGain

算法框架

def chooseBestFeatureToSplitByID3(dataSet):
"""
选择最好的数据集划分
:param dataSet:
:return:
"""
numFeatures = len(dataSet[0]) -1 # 最后一列是分类
baseEntropy = calcShannonEnt(dataSet) #返回整个数据集的信息熵
bestInfoGain = 0.0
bestFeature = -1
for i in range(numFeatures): # 遍历所有维度特征
infoGain = calcInformationGain(dataSet,baseEntropy,i) #返回具体特征的信息增益
if(infoGain > bestInfoGain):
bestInfoGain = infoGain
bestFeature = i
return bestFeature # 返回最佳特征对应的维度

def createTree(dataSet,featureName,chooseBestFeatureToSplitFunc = chooseBestFeatureToSplitByID3):
"""
创建决策树
:param dataSet: 数据集
:param featureName: 数据集每一维的名称
:return: 决策树
"""
classList = [example[-1] for example in dataSet] # 类别列表
if classList.count(classList[0]) == len(classList): # 统计属于列别classList[0]的个数
return classList[0] # 当类别完全相同则停止继续划分
if len(dataSet[0]) ==1: # 当只有一个特征的时候，遍历所有实例返回出现次数最多的类别
return majorityCnt(classList) # 返回类别标签
bestFeat = chooseBestFeatureToSplitFunc(dataSet)#最佳特征对应的索引
bestFeatLabel = featureName[bestFeat] #最佳特征
myTree ={bestFeatLabel:{}} # map 结构，且key为featureLabel
del (featureName[bestFeat])
# 找到需要分类的特征子集
featValues = [example[bestFeat] for example in dataSet]
uniqueVals = set(featValues)
for value in uniqueVals:
subLabels = featureName[:] # 复制操作
myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet,bestFeat,value),subLabels)
return myTree

测试决策树的构建

dataSet,featureName = createDataSet()
myTree = createTree(dataSet,featureName)
print(myTree)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

wrenthomas 2020-01-10 11:26

关注

def predict(tree, labels, test_sample):
    """
    对单个样本进行分类
    tree: 训练的字典
    labels: 除去最后一列的其它字段
    test_sample: 需要分类的一行记录数据
    """
    firstStr = list(tree.keys())[0]           # tree字典里找到第一个用于分类键值对
    secondDict = tree[firstStr]
    featIndex = labels.index(firstStr)  # 找到第一个建(label)在给定label的索引
    for key in secondDict.keys():
        if test_sample[featIndex] == key:  # 找到test_sample在当前label下的值
            if type(secondDict[key])== dict:
                classLabel = predict(secondDict[key], labels, test_sample)
            else:
                classLabel = secondDict[key]
    return classLabel
dataSet = [['青年', '否', '否', '一般', '拒绝'],
            ['青年', '否', '否', '好', '拒绝'],
            ['青年', '是', '否', '好', '同意'],
            ['青年', '是', '是', '一般', '同意'],
            ['青年', '否', '否', '一般', '拒绝'],
            ['中年', '否', '否', '一般', '拒绝'],
            ['中年', '否', '否', '好', '拒绝'],
            ['中年', '是', '是', '好', '同意'],
            ['中年', '否', '是', '非常好', '同意'],
            ['中年', '否', '是', '非常好', '同意'],
            ['老年', '否', '是', '非常好', '同意'],
            ['老年', '否', '是', '好', '同意'],
            ['老年', '是', '否', '好', '同意'],
            ['老年', '是', '否', '非常好', '同意'],
            ['老年', '否', '否', '一般', '拒绝'],
            ]
labels = ['年龄', '有工作', '有房子', '信贷情况']
# 测试训练集数据
print([predict(myTree,labels,test[:4]) for test in dataSet])
# 手动输入测试
while(1):
    n=input("请输入数据(年龄,有工作,有房子,信贷情况),例:老年 是 否 好")
    print(predict(myTree,labels,n.split(" ")))

这个算法少一个predict函数，你把我这段代码加上就可以了

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

2024年最全手把手教你编写Python抢购脚本_抢单脚本的制作教程，Python数据结构算法面试题
2024-05-04 19:26

2401_84140080的博客这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。最近我才对这些路线做了一下新的更新，...
极具参考价值的Python面试题！从创业公司到一线大厂的真实面经汇总
2020-04-21 08:16

吴秋霖的博客全网极具参考价值的Python面试题，从创业公司到一线大厂的面经汇总整理。作者会持续维护更新！
Python——基础习题（300题）
2021-10-21 19:01

铁甲小宝同学的博客我也是从最开始学起来的，我觉得刷一些基础题还是很重要的，所以我就总结给大家了，也非常感谢在我一路走来帮助我的大佬们，万分感谢！！选择单选题 1）：Python语言采用______来表明每行代码的层次关系。 A、...
ChatGPT技术原理解析：从RL之PPO算法、RLHF到GPT4、instructGPT
2023-01-06 15:14

v_JULY_v的博客本篇ChatGPT笔记会全力做到，通俗易懂且循序渐进(尽最大努力让每一个初学者哪怕是文科生都能没有障碍的读懂每一字一句、每一个概念、每一个公式) 一方面，对于想了解ChatGPT背后原理和如何发展而来的，逐一阐述从GPT...
Python从零开始快速搭建一个语音对话机器人
2023-11-22 17:44

吃猫猫的鱼干的博客完爆了GitHub上的开源项目N条街，然后在CSDN浏览各位博主的博客时发现，用百度语音识别的API和图灵机器人的API可以做一个实时语音对话的机器人，感觉特别兴奋，从而决定搭建一个自己的语音对话机器人。
加班熬夜一个月，终于把所有Python库整理齐了，祝你早日学成
2024-05-01 12:31

m0_60635176的博客 Levenshtein # 快速计算字符串相似度fuzzywuzzy # 字符串模糊匹配esmre # 正则表达式的加速器shortuuid # 一组简洁URL/UUID函数库ftfy # Unicode文本工具7unidecode # ascii和Unicode文本转换函数xpinyin # 将汉字...
使用Python生成自动报表（Excel）以邮件发送_python 中邮件发送excel
2024-05-06 19:37

2401_84572928的博客知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到...
Solana 签名算法对比与技术深析：性能、安全性与生态趋势
2025-07-01 17:20

鲲志说的博客作为高性能公链，Solana默认采用Ed25519签名算法，其在签名/验证速度、数据压缩等方面表现优异，但存在多签扩展和ZK兼容性不足的局限。文章对比了Secp256k1、BLS等替代方案的技术差异，探讨了Solana当前多签方案的...
Python采集CSDN博客排行榜数据
2020-09-01 15:22

Python_sn的博客文章目录 ...那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码！ QQ群：101677771 前言开始接触 CTF 网络安全比赛发现不会写 Python 脚本的话简
python编写函数实现分段函数计算_Unity PBR Standard Shader 实现详解（四）BRDF函数计算...
2021-01-04 11:24

爱吃糖的果子狸的博客这个系列的文章主要目的在于了解Unity默认 Standard Shader和相关内置的函数方法。需要看本系列文章前三篇的客官可以看这里：雨轩：Unity PBR StandardShader 实现详解（一）PBR的简单介绍及美术原理zhuanlan....
没有解决我的问题, 去提问

码龄粉丝数原力等级 --

请问大佬们，我用python编写了一个id3算法，如何让让用户自己输入数据来验证这些数据对应的结果？

-- coding: utf-8 --

计算的始终是类别标签的不确定度

计算条件熵

算法框架

测试决策树的构建

1条回答默认最新

码龄粉丝数原力等级 --

请问大佬们，我用python编写了一个id3算法，如何让让用户自己输入数据来验证这些数据对应的结果？

-*- coding: utf-8 -*-

计算的始终是类别标签的不确定度

计算条件熵

算法框架

测试决策树的构建

1条回答 默认 最新

-- coding: utf-8 --

1条回答默认最新