python决策树准确率

from math import log
def calcShannonEnt(dataSet):
    num = len(dataSet)
    labelCount = {}
    for featureVec in dataSet:
        label = featureVec[-1]
        if label not in labelCount.keys():
            labelCount[label] = 1
        else:
            labelCount[label] += 1
    shannonEnt = 0.0
    for key in labelCount.keys():
        pro = float(labelCount[key]) / num
        shannonEnt -= pro * log(pro, 2)
    return shannonEnt



def splitDataSet(dataSet, feature, value):
    reDataSet = []
    for featureVector in dataSet:
        if featureVector[feature] == value:
            reduceFeature = featureVector[:feature]
            reduceFeature.extend(featureVector[feature + 1:])
            reDataSet.append(reduceFeature)
    return reDataSet



def chooseBestFeatureToSplit(dataSet):
    numOfFeature = len(dataSet[0]) - 1
    baseShannon = calcShannonEnt(dataSet)  #
    bestShannon = 0.0
    bestFeature = -1
    for i in range(numOfFeature):
        featureList = [featureVector[i] for featureVector in dataSet]
        featureSet = set(featureList)
        newShannon = 0.0
        for value in featureSet:
            subDataSet = splitDataSet(dataSet, i, value)
            prob = float(len(subDataSet)) / float(len(dataSet))
            newShannon += prob * calcShannonEnt(subDataSet)
        shannon = baseShannon - newShannon
        if (shannon > bestShannon):
            bestShannon = shannon
            bestFeature = i
    return bestFeature


# 多数表决法定义叶子节点的分类
import operator


def majorityCnt(classList):
    classCount = {}
    for vote in classList:
        if vote not in classCount.keys():
            classCount[vote] = 1
        else:
            classCount[vote] += 1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]


# 递归构建决策树
def createTree(dataSet, labels):
    classList = [example[-1] for example in dataSet]
    # 递归函数第一个停止的条件：所有类标签完全相同，直接返回该类标签
    if classList.count(classList[0]) == len(classList):
        return classList[0]
    # 递归函数的第二个停止条件：使用完所有特征，仍不能将数据集划分成仅包含唯一类别的分组。使用多数表决法决定叶子节点的分类
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)
    # 开始创建决策树
    bestFeature = chooseBestFeatureToSplit(dataSet)  # 选择划分数据集最好的特征的索引
    bestFeatureLabel = labels[bestFeature]  # 根据特征的索引提取索引的名称
    decisionTree = {bestFeatureLabel: {}}  # 将此特征作为树的根节点
    del labels[bestFeature]  # 将已放进树中的特征从特征标签中删除
    featrueValues = [example[bestFeature] for example in dataSet]  # 提取所有样本关于这个特征的取值
    uniqueVals = set(featrueValues)  # 应用集合的互异性，提取这个特征的不同取值
    for value in uniqueVals:  # 根据特征的不同取值，创建这个特征所对应结点的分支
        subLabels = labels[:]
        decisionTree[bestFeatureLabel][value] = createTree(splitDataSet(dataSet, bestFeature, value), subLabels)
    return decisionTree
def classify(inputTree, featureLabels, testVector):
    firstNode,=inputTree.keys()

    secondDict=inputTree[firstNode]
    featureIndex=featureLabels.index(firstNode)
    for key in secondDict.keys():
        if testVector[featureIndex]==key:
            if type(secondDict[key]).__name__=='dict':
                classLabel=classify(secondDict[key], featureLabels, testVector)
            else:
                classLabel=secondDict[key]
    return classLabel

def mapFeatureToLabelIndex(map, labels):
    for key in map.keys():
        for i in range(len(labels)):
            if key == labels[i]:
                return key, i


dataSet=[]
for line in open("feature.dat").readlines()[:100]:
    dataSet.append([int(x) for x in list(line.strip().split(','))])
labels = [line.strip() for line in open("name.dat").readlines()]
testData=[]
for line in open("feature.dat").readlines()[100:200]:
    testData.append([int(x) for x in list(line.strip().split(','))])
featureLabels = [line.split() for line in open("name.dat").readlines()]
def predict(testData, decisionTree, labels):
    # 得到决策树结点的下标
    feature_label, feature_index = mapFeatureToLabelIndex(decisionTree, labels)
    tree = decisionTree[feature_label][testData[feature_index]]
    # 判断该树是叶子结点仍是子结点
    if (~isinstance(tree, dict)):  # 若是是叶子结点，则直接返回结果
        return tree
    else:  # 子结点则继续递归
        return predict(testData, tree, labels)
import copy
predict_labels = copy.copy(labels)
myTree = createTree(dataSet, labels)
# 决策树准确率判断
def calPrecision(dataSet, predictSet):
    length = len(dataSet)
    count = 0
    for i in range(length):
        if dataSet[i][-1] == predictSet[i]:
            count += 1
    return count / length * 100




# 预测训练集
predict_result = []
for data in testData:
    result = predict(data[0:-1], myTree, predict_labels)
    predict_result.append(result)

# 测试训练集准确率
print("decision Tree predict precision: %.2f" % calPrecision(testData, predict_result), "%")

运行时报错

请问应该如何解决这个问题？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-HGJ 2021-05-06 09:52
关注
可能与数据集或数据选取有关，可先尝试用try...except...排错进行调试运行：

try:

tree = decisionTree[feature_label][testData[feature_index]]

except:

tree = decisionTree[feature_label][testData[feature_index-1]]#找不到节点数据时获取上一个节点数据

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

Python决策树分析数据 python
2022-05-16 19:56

回答 1 已采纳应该是你的IDE设置问题吧？我不会用IDE，建议你点击下图红圈处的按钮试试。
决策树准确率每次运行都不一样 matlab 决策树有问必答
2021-05-24 13:27

回答 2 已采纳机器学习的算法每次运行后得出的准确率值都不一样是正常的，有一些地方随机分或者生成就会导致结果不一样
python决策树可视化报错 python 有问必答
2021-05-04 23:21

回答 4 已采纳因为代码中对dataSet的处理过程中每行读取的数据都是一个字符串，所以无法进行后续处理，另外labels要减少一层嵌套。修改成如下： dataSet=[] for line in open("f
python决策树实现鸢尾花分类
2023-11-15 20:16

这个项目是基于 Python 编写的，使用决策树算法对鸢尾花数据集进行分类。决策树是一种常用的监督学习算法，适用于分类和回归问题。在这个项目中，我们主要关注鸢尾花分类任务。项目介绍：数据集：项目使用经典...
ID3决策树实现分类 matlab python 决策树
2022-11-28 16:56

回答 9 已采纳其实比起决策树，我觉得你更需要数据集合，我有睡眠数据集合
决策树样本量是否有要求 python 决策树有问必答
2021-10-16 08:07

回答 1 已采纳你这个确实样本太小，特征太多了，没法分支啊
python实现id3算法实例 python 决策树机器学习
2022-05-14 14:14

回答 1 已采纳 from math import log import operator """ 函数说明:创建测试数据集 """ def createDataSet(): dataSet =
机器学习 python 决策树 实验
2022-11-12 19:57

在本实验中，我们将深入探讨如何使用Python编程语言来实现机器学习中的决策树算法。决策树是一种广泛应用的监督学习方法，常用于分类和回归任务，因其直观易懂和解释性强的特点而受到青睐。首先，`tree.py` 文件很...
关于#决策树#的问题：针对如下数据给出决策树预测(语言-python) python
2022-04-22 17:02

回答 1 已采纳你需要对字符型变量进行离散编码，如年龄中的“<30”编码为“1”，“30-50”为“2”，“>50”为“3”，其他特征类似，因为如果不编码的话，将这些内容放入Python中的决策树里是识别
深度学习准确率很低的原因 python tensorflow 机器学习神经网络
2021-02-08 23:17

回答 1 已采纳有二个地方要改一下， kernel_size[0],kernel_size[1]->kernel_size，要以元组形式参数传入. 运行的片断，准确率在98%左右： Epoch 3/1
python裁判打分 python
2022-06-11 20:59

回答 2 已采纳你题目的解答代码如下： n = int(input("请输入人数:")) li = list(map(int,input("请输入所有分数:").split(" "))) avg = (sum(li)
Python决策树算法sklearn代码 DecisionTreeClassifier示例
2023-03-11 23:21

# 机器学习 Python决策树算法sklearn代码 DecisionTreeClassifier示例 1. 数据集包含76条，每条为4个特征和1个二分类结果，保存在data.csv中； 2. 将数据集切分为训练集和测试集； 3. 通过sklearn的决策树分类器...
Python安装失败 python 有问必答
2022-02-23 17:50

回答 4 已采纳参考解决： Python打不开、Python 安装时发生严重错误 “A newer version of the Python launcher is already
python决策树之C4.5算法详解
2020-09-20 23:11

【C4.5算法概述】 C4.5算法是一种经典的决策树构建算法，它是ID3算法的升级版，主要用于解决分类问题。C4.5在ID3的基础上做了多项改进，使其更加...理解并掌握C4.5算法，有助于构建更准确且泛化能力更强的决策树模型。
tree_python预测_决策树_预测_
2021-10-03 01:17

Python作为当前数据科学的主要编程语言，提供了丰富的库来支持决策树的构建和预测。本主题将深入探讨如何使用Python进行决策树预测。一、决策树基础 决策树是一种监督学习方法，用于分类和回归问题。它通过学习...
没有解决我的问题, 去提问

悬赏问题

¥15 求京东批量付款能替代天诚
¥15 slaris 系统断电后，重新开机后一直自动重启
¥15 51寻迹小车定点寻迹
¥15 谁能帮我看看这拒稿理由啥意思啊阿啊
¥15 关于vue2中methods使用call修改this指向的问题
¥15 idea自动补全键位冲突
¥15 请教一下写代码，代码好难
¥15 iis10中如何阻止别人网站重定向到我的网站
¥15 滑块验证码移动速度不一致问题
¥15 Utunbu中vscode下cern root工作台中写的程序root的头文件无法包含

python决策树准确率

3条回答 默认 最新

悬赏问题

3条回答默认最新