请问我这个ROC曲线和AUC值计算有没有问题

目前在做多分类的机器学习模型，计算准确率等指标，绘制多分类ROC曲线，计算AUC值，目前遇到的问题是准确率和AUC差距比较大，在准确率比较低的情况下，AUC看起来仍然挺高。在准确率比较高情况下，AUC看起来就特别的高，好几个模型AUC都是0.99以上，看起来挺假的，画出图来反而不太好看。哪位帮忙看看，我计算有没有问题，或者AUC值它就是这个样子。
下面是计算模型准确率、绘制混淆矩阵、绘制roc曲线和计算auc值的一段代码，以逻辑回归为例。

#下面是逻辑回归
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import ConfusionMatrixDisplay
from sklearn.linear_model import LogisticRegression

regmodel = LogisticRegression()
regmodel.fit(X_train, y_train) #训练模型

# 准确率评分、混淆矩阵和分类报告

regmodel_acc = accuracy_score(y_test, regmodel.predict(X_test))

print(f"Training Accuracy of LogisticRegression is {accuracy_score(y_train, regmodel.predict(X_train))}")
print(f"Test Accuracy of LogisticRegression is {regmodel_acc} \n")

print(f"Confusion Matrix :- \n{confusion_matrix(y_test, regmodel.predict(X_test))}\n")
print(f"Classification Report :- \n {classification_report(y_test, regmodel.predict(X_test),digits=3)}")


ConfusionMatrixDisplay.from_predictions(y_test,regmodel.predict(X_test),display_labels=["1级", "2级", "3级","4级", "5级", "6级"],cmap=plt.cm.Blues, colorbar=True)
plt.title("LogisticRegression")
plt.grid(False)

#下面是画roc曲线和计算auc值
probability=regmodel.predict_proba(X_test)
from sklearn.preprocessing import OneHotEncoder

# 创建OneHotEncoder对象
encoder = OneHotEncoder(sparse=False)
 
# 将y_test转换成二维数组形式
y_test_array = [[label] for label in y_test]
 
# 进行One-Hot编码
y_test_encoded = encoder.fit_transform(y_test_array)
import matplotlib.pyplot as plt
from itertools import cycle
from sklearn.metrics import roc_curve, auc
from scipy import interp

y_label = y_test_encoded
y_score = probability
n_classes = 6
# 计算每一类的ROC
fpr = dict()
tpr = dict()
roc_auc = dict()
for i in range(n_classes):
    fpr[i], tpr[i], _ = roc_curve(y_label[:, i], y_score[:, i])
    roc_auc[i] = auc(fpr[i], tpr[i])
# micro（方法二）
fpr["micro"], tpr["micro"], _ = roc_curve(y_label.ravel(), y_score.ravel())
roc_auc["micro"] = auc(fpr["micro"], tpr["micro"])
# macro（方法一）
# First aggregate all false positive rates
all_fpr = np.unique(np.concatenate([fpr[i] for i in range(n_classes)]))
# Then interpolate all ROC curves at this points
mean_tpr = np.zeros_like(all_fpr)
for i in range(n_classes):
    mean_tpr += np.interp(all_fpr, fpr[i], tpr[i])
# Finally average it and compute AUC
mean_tpr /= n_classes
fpr["macro"] = all_fpr
tpr["macro"] = mean_tpr
roc_auc["macro"] = auc(fpr["macro"], tpr["macro"])
# Plot all ROC curves
lw=2
plt.figure()
plt.plot(fpr["micro"], tpr["micro"],
         label='micro-average ROC curve (area = {0:0.2f})'
               ''.format(roc_auc["micro"]),
         color='deeppink', linestyle=':', linewidth=4)
 
plt.plot(fpr["macro"], tpr["macro"],
         label='macro-average ROC curve (area = {0:0.2f})'
               ''.format(roc_auc["macro"]),
         color='navy', linestyle=':', linewidth=4)
 
colors = cycle(['aqua', 'darkorange', 'cornflowerblue'])
for i, color in zip(range(n_classes), colors):
    plt.plot(fpr[i], tpr[i], color=color, lw=lw,
             label='ROC curve of class {0} (area = {1:0.2f})'
             ''.format(i, roc_auc[i]))
 
plt.plot([0, 1], [0, 1], 'k--', lw=lw)
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('LogisticRegression ROC')
plt.legend(loc="lower right")
plt.show()

下面是分类结果：

可以看到准确率只有0.598

下面是roc和auc

可以看到auc是0.90
这个准确率和auc是不是差距有点大了？

再来看xgboost，代码跟上面基本一样。
下面是分类结果

可以看到准确率是0.908

下面是roc和auc

auc直接到了0.994

以上计算是正确的吗，准确率和auc有没有问题呢？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

13条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-司宇[在线] 2023-11-08 08:00
关注
获得0.15元问题酬金

引自强大而免费的微信小程序：皆我工具箱。

准确率和AUC值的差距在某些情况下可能会存在。AUC值表示ROC曲线下方的面积，它评估的是模型正确地对正样本和负样本进行排序的能力，而不是预测的准确性。因此，即使分类器的准确率较低，但如果它在样本排序方面表现良好，AUC值仍然可以较高。

在你提供的代码中，看起来计算AUC的步骤是正确的。然而，你使用的是OneHotEncoder对y_test进行编码，这可能导致AUC值的偏高。在多分类问题中，通常建议将目标变量进行标签编码，而不是独热编码。你可以尝试使用LabelEncoder来处理y_test，然后再计算AUC值，看看结果是否有所改变。

此外，AUC值还可能受到数据集不平衡的影响。如果数据集中的正负样本比例严重失衡，在计算AUC时可能会出现偏差。你可以尝试使用其他评估指标，如精确度、召回率等，来更全面地评估模型的性能。

最后，判断模型性能时，建议不仅仅依赖于单一指标，而是综合考虑多个指标来评估模型的效果。这样可以更全面地了解模型的性能，并避免将结果过度解读。

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python画出roc曲线 auc计算逻辑_Python画ROC曲线和AUC值计算（附代码）
2020-12-08 02:57

weixin_39763953的博客这篇文章将先简单的介绍ROC和AUC，而后用实例演示如何python作出ROC曲线图以及计算AUC。AUC介绍AUC(Area Under Curve)是机器学习二分类模型中非常常用的评估指标，相比于F1-Score对项目的不平衡有更大...
快速AUC计算器和ROC曲线绘图仪：测试和训练ROC曲线下面积，绘制ROC曲线 完全矢量化，非常快.-matlab开发
2025-12-26 23:44

随着机器学习和深度学习技术的不断发展，快速准确地计算AUC值和绘制ROC曲线显得越来越重要。这些工具和方法不仅适用于学术研究，在工业界的实际应用中也发挥着关键作用，例如在医疗诊断、金融风险评估、欺诈检测等...
逻辑回归的ROC曲线与AUC值：原理与代码实现
2025-05-09 23:43

光子AI的博客本文的目的是深入介绍ROC曲线和AUC值的原理，并通过Python代码展示如何在逻辑回归模型中计算和绘制它们。范围涵盖了从基本概念的解释到实际代码的实现，以及相关的数学模型和应用场景。背景介绍：介绍文章的目的、...
ROC曲线和AUC面积.zip
2023-08-23 09:18

通过实际操作这个项目，新手可以了解ROC曲线和AUC面积的实际应用，加深对模型评估的理解，并提升Python编程和数据分析技能。同时，这也将锻炼他们在遇到实际问题时如何选择合适的模型、处理数据、评估模型性能以及...
ROC 曲线和 AUC
2025-04-26 10:33

侃山的博客注意，ROC曲线一定会经过（0，0）和（1，1）两点，代表全部分类为负和全部分类为正的结果。也就是说，（TPR，FPR）离（0，1）越近越好。不难观察到，紫色曲线的AUC，也就是在0到1区间上的积分为1，虚线（乱猜）的AUC...
ROC曲线及AUC详解[可运行源码]
2025-11-17 07:08

这段代码完整地展示了如何通过编程实现ROC曲线的绘制和AUC值的计算。源码中的实现步骤具体包括数据准备、数据排序、选择不同的阈值、计算各个阈值下的TPR和FPR值、绘制ROC曲线，并最终计算出AUC值。通过实际操作这段...
python画roc曲线_使用Python画ROC曲线以及AUC值
2020-11-29 13:23

weixin_39569747的博客 AUC介绍AUC(Area Under Curve)是机器学习二分类模型中非常常用的评估指标，相比于F1-Score对项目的不...此时想要评估训练模型的好坏就得自己搞一个AUC计算模块，本文在查询资料时发现libsvm-tools1有一个非常通俗...
评价指标 | ROC曲线和AUC面积理解
2022-06-18 10:05

小白学视觉的博客（1）ROC曲线的由来（2）什么是ROC曲线（3）ROC曲线的意义（4）AUC面积的由来（5）什么是AUC面积（6）AUC面积的意义（7）讨论：在多分类问题下能不能使用ROC曲线一、ROC曲线的由来很多学习器是为测试样本产生一个实...
机器学习中常用的概念：ROC曲线和AUC值，到底是什么？
2024-01-08 08:55

数据科学作家的博客 ROC曲线和AUC值是评价分类监督学习性能的重要量度指标。ROC曲线又被称为“接受者操作特征曲线”“等感受性曲线”，主要用于预测准确率情况。最初ROC曲线运用在军事上，现在广泛应用在各个领域，比如判断某种因素对于...
auc.zip_AUC_auc java_roc curve
2022-09-23 00:17

在Java编程环境下，我们可以使用各种库来计算和绘制ROC曲线以及对应的AUC值。 1. **什么是AUC**： AUC是ROC曲线下的面积，表示模型区分正负样本的能力。如果模型完全随机，AUC将接近0.5；而一个完美的分类器，AUC...
python绘制ROC曲线，计算AUC
2021-10-26 12:05

卅拓的博客使用Python绘制ROC曲线 计算AUC
洞悉模型效能：ROC曲线与AUC的终极指南
2024-08-12 18:13

机器学习是人工智能的一个分支，它使计算机系统能够从数据中学习并做出决策或预测，而无需进行明确的编程。机器学习算法可以分析大量数据，识别模式和趋势，并根据这些模式做出预测或决策。它包括几种不同的方法，...
AUC计算方法与Python代码实现
2025-12-21 10:36

最后，将（FPR，TPR）作为坐标点绘制到ROC曲线上，并计算这条曲线下的面积，即得到AUC值。 Python作为一种广泛使用的编程语言，在数据分析和机器学习领域有着强大的库支持。在Python中，可以使用诸如scikit-learn库...
7.sklearn-逻辑回归、精确率和召回率、ROC曲线和AUC指标
2024-09-13 20:00

编程开发者的博客 Anaconda-创建虚拟环境的手把手教程相关环境配置看此篇文章，本专栏深度学习相关的版本和配置，均按照此篇文章进行安装。 1.逻辑回归 1.1 API介绍 ...可以看出auc = 0.97 接近1，说明这个模型的效果还不错
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 11月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月8日

请问我这个ROC曲线和AUC值计算有没有问题

13条回答 默认 最新

问题事件

13条回答默认最新