python绘制的ROC曲线与结果不符

python进行XGBoost分析多分类问题时，采用precision、recall、f1-macro、f1-weighted和test score来评价模型并绘制ROC曲线。
结果是以上评价指标都是1，但是ROC曲线并不符合评价指标的结果，并出现了以下错误：

请问我要如何解决这个问题？
完整的代码如下：


```python
from xgboost import XGBClassifier
from xgboost import plot_importance
import pandas as pd
from sklearn.model_selection import KFold, cross_val_score as CVS, train_test_split 
from sklearn import metrics
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import GridSearchCV
import numpy as np
from sklearn.metrics import precision_score, recall_score, f1_score,roc_curve, auc
from sklearn.preprocessing import label_binarize


#读取数据和标签
X = pd.read_excel("C:/Users/linyifeng/Desktop/data/SVM/freq_data.xlsx",sheet_name='train_x')
y = pd.read_excel("C:/Users/linyifeng/Desktop/data/SVM/freq_data.xlsx",sheet_name='train_y')
y = y.values.ravel()
#将数据分为训练集、验证集和一部分测试集
X_trainval,X_test,y_trainval,y_test = train_test_split(X,y,test_size=0.2,random_state=777)
le = LabelEncoder()
y_trainval = le.fit_transform(y_trainval)
y_test = le.fit_transform(y_test)

XGB = XGBClassifier(
learning_rate = 0.17,
n_estimators = 90,
max_depth=3,
min_child_weight=2,
gamma=0.07,
subsample=0.8,
colsample_bytree=0.8,
objective= 'multi:softmax',
num_class=7,
seed=27)
XGB.fit(X_trainval,y_trainval)


#评估模型
XGB.fit(X_test,y_test)
y_pred = XGB.predict(X_test)#返回训练后的预测结果
print(y_test)
print(y_pred)
p = precision_score(y_test, y_pred, average='weighted')#计算精确率
print(p)
r = recall_score(y_test, y_pred, average='weighted')#计算召回率
print(r)
f1sore = f1_score(y_test, y_pred, average='macro')#计算f1_macro 分数
print(f1sore)
f1sore_weight = f1_score(y_test, y_pred, average='weighted')#计算f1_weight 分数
print(f1sore_weight)
test_score = XGB.score(X_test,y_test)#计算test score
print("Score on testing set:{:.2f}".format(test_score))

#绘制ROC曲线
import matplotlib.pyplot as plt
y_ROC = y_test
y_ROC = label_binarize(y_ROC,classes=[1,2,3,4,5])#将label二值化
y_pred = label_binarize(y_pred,classes=[1,2,3,4,5])#将label二值化
n_classes = y_ROC.shape[1]#读取二维矩阵的类数，这里为5
y_score = XGB.predict_proba(X_test)#获取每个分类的概率值

fpr = dict()
tpr = dict()
roc_auc = dict()
for i in range(n_classes):
    fpr[i], tpr[i], _ = roc_curve(y_ROC[:, i], y_score[:, i])#遍历五种分类的结果来计算五种分类的fpr和tpr
    roc_auc[i] = auc(fpr[i], tpr[i])#计算roc曲线面积
fpr["micro"], tpr["micro"], _ = roc_curve(y_ROC .ravel(), y_score.ravel())
roc_auc["micro"] = auc(fpr["micro"], tpr["micro"])
plt.figure()
lw = 2
plt.plot(fpr["micro"], tpr["micro"], color='darkorange',
         lw=lw, label='ROC curve (area = %0.2f)' % roc_auc["micro"])
plt.plot([0, 1], [0, 1], color='navy', lw=lw, linestyle='--')
plt.xlabel('FPR')
plt.ylabel('TPR')
plt.ylim([0.0, 1.0])
plt.xlim([0.0, 1.0])
plt.legend(loc="lower right")
plt.title("Precision-Recall")
plt.show()

```

展开全部

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

9条回答默认最新

m0_73340666 2023-03-16 13:22

关注

该回答引用chatGpt
根据您提供的信息，所有评价指标都为1，但是ROC曲线不符合预期，这表明评价指标的结果可能不正确。有以下几个问题需要检查和调整：

对于多类别问题，需要使用label_binarize函数将真实标签和预测标签二值化。您已经使用了该函数，但它在二值化标签时指定的类别不正确。在您的代码中，使用了classes=[1,2,3,4,5]，但您的类别应该为7。您可以修改以下两行代码，将classes参数更改为[0,1,2,3,4,5,6]：

y_ROC = label_binarize(y_ROC,classes=[0,1,2,3,4,5,6])#将label二值化
y_pred = label_binarize(y_pred,classes=[0,1,2,3,4,5,6])#将label二值化

您的模型是用X_trainval和y_trainval进行训练的，但在评估模型时，您使用了X_test和y_test，这意味着您的模型可能会过度拟合测试集。您可以使用X_trainval和y_trainval来评估模型，并在测试集上进行最终评估，如下所示：

# 评估模型
y_pred = XGB.predict(X_trainval) # 返回训练后的预测结果
p = precision_score(y_trainval, y_pred, average='weighted') # 计算精确率
print(p)
r = recall_score(y_trainval, y_pred, average='weighted') # 计算召回率
print(r)
f1sore = f1_score(y_trainval, y_pred, average='macro') # 计算f1_macro 分数
print(f1sore)
f1sore_weight = f1_score(y_trainval, y_pred, average='weighted') # 计算f1_weight 分数
print(f1sore_weight)
test_score = XGB.score(X_test, y_test) # 计算test score
print("Score on testing set:{:.2f}".format(test_score))

# 绘制ROC曲线
y_ROC = y_trainval
y_ROC = label_binarize(y_ROC, classes=[0,1,2,3,4,5,6]) # 将label二值化
y_pred = label_binarize(y_pred, classes=[0,1,2,3,4,5,6]) # 将label二值化
n_classes = y_ROC.shape[1] # 读取二维矩阵的类数，这里为7
y_score = XGB.predict_proba(X_trainval) # 获取每个分类的概率值

fpr = dict()
tpr = dict()
roc_auc = dict()
for i in range(n_classes):
    fpr[i], tpr[i], _ = roc_curve(y_ROC[:, i], y_score[:, i]) # 遍历七种分类的结果来计算七种分类的fpr和tpr
    roc_auc[i] = auc(fpr[i], tpr[i]) # 计算roc曲线面积
fpr["micro"], tpr["micro"], _ = roc_curve(y_ROC.ravel(), y_score.ravel())
roc_auc["micro"] = auc(fpr["micro"], tpr["micro"])
plt.figure()
lw = 2
plt.plot(fpr["micro"], tpr["micro"], color='darkorange',
         lw=lw, label='ROC curve (area = %0.2f)' % roc_auc["micro"])
for i in range(n_classes):
    plt.plot(fpr[i], tpr[i], lw=lw,
             label='ROC curve of class %d (area = %0.2f)' % (i, roc_auc[i]))
plt.plot([0, 1], [0, 1], color='navy', lw=lw, linestyle='--')
plt.xlabel('FPR')
plt.ylabel('TPR')
plt.ylim([0.0, 1.0])
plt.xlim([0.0, 1.0])
plt.legend(loc="lower right")
plt.title("ROC Curve")
plt.show()

您可以尝试使用网格搜索（Grid Search）来调整模型的参数，以改善模型的性能和泛化能力。例如，您可以使用以下代码：

# 网格搜索
param_grid = {'learning_rate': [0.1, 0.17],
              'n_estimators': [50, 90],
              'max_depth': [3, 5],
              'min_child_weight': [1, 2],
              'gamma': [0, 0.07],
              'subsample': [0.8, 1],
              'colsample_bytree': [0.8, 1]}
grid_search = GridSearchCV(estimator=XGB, param_grid=param_grid, cv=5, n_jobs=-1)
grid_search.fit(X_trainval, y_trainval)
print("Best parameters: ", grid_search.best_params_)
print("Best score: ", grid_search.best_score_)

希望这些建议能帮助您解决问题。

展开全部

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(8条)

编辑

预览

报告相同问题？

关注问题

红外小目标绘制ROC曲线 matlab 有问必答
2021-07-27 06:59

回答 3 已采纳使用红外小目标检测算法之后，得到一个检测图。再对这个检测图使用不同的阈值进行分割，得到不同的TPR和FPR。
多模型roc曲线的绘制不出图 python
2022-04-30 04:21

回答 2 已采纳在代码第一行加上这个试试 %matplotlib inline
canvas绘制roc曲线 html5 javascript 机器学习
2022-06-22 06:38

回答 1 已采纳你这个用原生canvas做比较复杂。用echarts做几行代码完事，基础折线图的例子：https://echarts.apache.org/handbook/zh/how-to/chart-types
基于Python绘制PR曲线与ROC曲线（源码+图片+说明文档）.rar
2023-04-20 02:30

1、资源内容：基于Python绘制PR曲线与ROC曲线（完整源码+说明文档+数据）.rar 2、代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 3、适用对象：计算机，电子信息工程、数学等专业的大学生课程...
ROC曲线画出来混乱线 python sklearn 随机森林
2022-04-13 15:57

回答 2 已采纳我感觉你写得不对，以下代码供你参考 import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklea
roc曲线的auc值 python
2023-04-05 13:40

回答 2 已采纳该回答通过自己思路及引用到GPTᴼᴾᴱᴺᴬᴵ搜索,得到内容具体如下：如果使用SVM模型进行预测，并且得到的ROC曲线下的AUC值为1，可能是因为以下原因： 1. 数据问题：可能存在数据泄漏或者过拟
机器学习多次重复实验得到的AUC平均值怎么画出ROC曲线？人工智能数据挖掘机器学习
2020-05-25 03:27

回答 1 已采纳你在每次实验时需要保存下fpr和tpr, 然后可以做个平均化处理，我这里是用的类似宏平均的处理。希望能帮到你。 import numpy as np from scipy import int
如何使用python绘制ROC曲线？
2022-11-01 16:23

张小李的风的博客如何使用python绘制ROC曲线？
分类器ROC曲线中正样本的概率 matlab
2023-04-08 00:04

回答 1 已采纳这篇博客: [matlab也能用来机器学习！？]手把手教你玩分类学习工具箱(ROC曲线,混淆矩阵一键生成)中的查看ROC曲线 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
数列的变换问题，怎么改变可以代入算roc_auc曲线 python 机器学习算法
2023-03-08 14:01

回答 2 已采纳该回答引用ChatGPT 首先， ROC AUC 曲线是一种用于评估分类模型性能的指标，它的输入数据需要是分类器的预测概率值和对应的真实标签。因此，将一个数列的变换代入算 ROC AUC 曲线并不是
随机森林在训练+验证组（交叉验证）ROC是1 r语言机器学习随机森林
2023-01-13 06:20

回答 1 已采纳 ROC曲线的面积取值范围是0到1，而AUC值为1表示模型完全可以将正样本和负样本区分开来，这个模型性能非常好。在交叉验证中，ROC面积为1可能是由于样本分布导致的，比如说训练集中正样本和负样本分布比例
Python绘制ROC曲线
2024-07-03 16:00

算法与编程之美的博客 1 问题如何利用python设计程序，绘制ROC曲线。2 方法绘制ROC曲线主要基于python 的sklearn库中的两个函数，roc_curv和auc两个函数。roc_curv 用于计算出fpr（假阳性率）和tpr（真阳性率）auc用于计算曲线下面积，...
python绘制ROC曲线，计算AUC
2021-10-26 04:05

卅拓的博客使用Python绘制ROC曲线 计算AUC
基于Matlab绘制ROC和PR曲线（源码+图片）.rar
2023-04-20 02:27

1、资源内容：基于MATLAB绘制ROC和PR曲线（完整源码+说明文档+数据）.rar 2、代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 3、适用对象：计算机，电子信息工程、数学等专业的大学生课程设计...
用Python绘制ROC曲线
2018-09-19 08:13

华农辅导员聊编程的博客 # 如果Anaconda中没有安装sklearn包，需要先导入sklearn包等 import numpy as np import matplotlib.pyplot as plt ...from sklearn.metrics import roc_curve, auc ###计算roc和auc from sklearn im...
没有解决我的问题, 去提问