wzy-1642 2024-04-24 08:43 采纳率: 16.7%

是否有显著差异性进行Nemenyi检验

请问对两个模型（逻辑回归和随机森林）在多个不平衡率的数据集中各个性能度量指标（训练集的acc、auc、precision、recall、f1已经得出具体数值）是否有显著差异性进行Nemenyi检验的Python代码应该怎么写？
以下是现在已完成的在其中一个数据集中得出两个模型的性能指标的代码：


# 初始化随机森林分类器
lg=LogisticRegression(random_state=42)
rf = RandomForestClassifier(n_estimators=100, random_state=42)
# 交叉验证
skfolds=StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
accuracy_score_list1,precision_score_list1,recall_score_list1,f1_score_list1, auc_score_list1=[], [], [], [], []
accuracy_score_list2,precision_score_list2,recall_score_list2,f1_score_list2, auc_score_list2=[], [], [], [], []

# 拆分数据集
for train_index,test_index in skfolds.split(X,y):
    X_train=X.iloc[train_index]
    y_train=y.iloc[train_index]
    X_test=X.iloc[test_index]
    y_test=y.iloc[test_index]
#随机过采样，预测    
    X_resampled,y_resampled=ros.fit_resample(X_train,y_train)
    lg.fit(X_resampled,y_resampled)
    y_pred1=lg.predict(X_test)
    
    rf_classifier=rf.fit(X_resampled,y_resampled)
    y_pred2=rf_classifier.predict(X_test)
    
#评估 
    #lg
    from sklearn import metrics
    y_score1=lg.predict_proba(X_test)[:,1]
    fpr1, tpr1,threshold1=metrics.roc_curve(y_test,y_score1)
    roc_auc1=metrics.auc(fpr1,tpr1)
    
    AccuracyScore1=accuracy_score(y_test,y_pred1)
    PrecisionScore1=precision_score(y_test,y_pred1)
    RecallScore1=recall_score(y_test,y_pred1)
    F1Score1=f1_score(y_test, y_pred1)
    
    accuracy_score_list1.append(AccuracyScore1)
    precision_score_list1.append(PrecisionScore1)
    recall_score_list1.append(RecallScore1)
    f1_score_list1.append(F1Score1)
    auc_score_list1.append(roc_auc1)
    
    #rf
    y_score2=rf.predict_proba(X_test)[:,1]
    fpr2, tpr2,threshold2=metrics.roc_curve(y_test,y_score2)
    roc_auc2=metrics.auc(fpr2,tpr2)
    
    AccuracyScore2=accuracy_score(y_test,y_pred2)
    PrecisionScore2=precision_score(y_test,y_pred2)
    RecallScore2=recall_score(y_test,y_pred2)
    F1Score2=f1_score(y_test, y_pred2)
    
    accuracy_score_list2.append(AccuracyScore2)
    precision_score_list2.append(PrecisionScore2)
    recall_score_list2.append(RecallScore2)
    f1_score_list2.append(F1Score2)
    auc_score_list2.append(roc_auc2)

print('Accuracy1:%0.3f(+/-%0.3f)'%(np.average(accuracy_score_list1),np.std(accuracy_score_list1)*2))
print('Precision1:%0.3f(+/-%0.3f)'%(np.average(precision_score_list1),np.std(precision_score_list1)*2))
print('Recall1:%0.3f(+/-%0.3f)'%(np.average(recall_score_list1),np.std(recall_score_list1)*2))
print('F1_score1:%0.3f(+/-%0.3f)'%(np.average(f1_score_list1),np.std(f1_score_list1)*2))
print('AUC1:%0.3f(+/-%0.3f)'%(np.average(auc_score_list1),np.std(auc_score_list1)*2))
print('Classification Report:\n', classification_report(y_test, y_pred1))

print('Accuracy2:%0.3f(+/-%0.3f)'%(np.average(accuracy_score_list2),np.std(accuracy_score_list2)*2))
print('Precision2:%0.3f(+/-%0.3f)'%(np.average(precision_score_list2),np.std(precision_score_list2)*2))
print('Recall2:%0.3f(+/-%0.3f)'%(np.average(recall_score_list2),np.std(recall_score_list2)*2))
print('F1_score2:%0.3f(+/-%0.3f)'%(np.average(f1_score_list2),np.std(f1_score_list2)*2))
print('AUC2:%0.3f(+/-%0.3f)'%(np.average(auc_score_list2),np.std(auc_score_list2)*2))
print('Classification Report:\n', classification_report(y_test, y_pred2))

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

阿里嘎多学长 2024-04-24 08:43

关注

以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳：

问题概括

这个问题的目的是评估两个不同的机器学习模型（逻辑回归和随机森林）在多个不平衡数据集上的性能度量指标（准确率、AUC、精确度、召回率、F1分数）是否存在显著差异，并使用Nemenyi检验来进行统计分析。

问题出现原因

问题出现的原因是在进行模型性能比较时，需要一个统计方法来确定两个模型的性能差异是否具有统计学意义。Nemenyi检验是一种常用的多重比较方法，适用于这种情况。

问题解决方案

为了解决这个问题，我们需要使用Python中的统计或科学计算库来执行Nemenyi检验。一个常用的库是scipy，它提供了进行Nemenyi检验的函数。

提供代码

以下是使用scipy进行Nemenyi检验的示例代码，这段代码基于您提供的代码片段进行了扩展：

import numpy as np
from scipy import stats
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score
from sklearn.model_selection import StratifiedKFold
from imblearn.over_sampling import RandomOverSampler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

# 初始化模型
lg = LogisticRegression(random_state=42)
rf = RandomForestClassifier(n_estimators=100, random_state=42)

# 交叉验证设置
skfolds = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# 性能指标列表
performance_scores = {
    'lg': {'accuracy': [], 'precision': [], 'recall': [], 'f1': [], 'auc': []},
    'rf': {'accuracy': [], 'precision': [], 'recall': [], 'f1': [], 'auc': []}
}

# 交叉验证过程
for train_index, test_index in skfolds.split(X, y):
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]
    
    # 随机过采样
    ros = RandomOverSampler(random_state=42)
    X_resampled, y_resampled = ros.fit_resample(X_train, y_train)
    
    # 逻辑回归模型训练和评估
    lg.fit(X_resampled, y_resampled)
    y_pred1 = lg.predict(X_test)
    y_score1 = lg.predict_proba(X_test)[:, 1]
    fpr1, tpr1, _ = metrics.roc_curve(y_test, y_score1)
    roc_auc1 = metrics.auc(fpr1, tpr1)
    
    performance_scores['lg']['accuracy'].append(accuracy_score(y_test, y_pred1))
    performance_scores['lg']['precision'].append(precision_score(y_test, y_pred1))
    performance_scores['lg']['recall'].append(recall_score(y_test, y_pred1))
    performance_scores['lg']['f1'].append(f1_score(y_test, y_pred1))
    performance_scores['lg']['auc'].append(roc_auc1)
    
    # 随机森林模型训练和评估
    rf.fit(X_resampled, y_resampled)
    y_pred2 = rf.predict(X_test)
    y_score2 = rf.predict_proba(X_test)[:, 1]
    fpr2, tpr2, _ = metrics.roc_curve(y_test, y_score2)
    roc_auc2 = metrics.auc(fpr2, tpr2)
    
    performance_scores['rf']['accuracy'].append(accuracy_score(y_test, y_pred2))
    performance_scores['rf']['precision'].append(precision_score(y_test, y_pred2))
    performance_scores['rf']['recall'].append(recall_score(y_test, y_pred2))
    performance_scores['rf']['f1'].append(f1_score(y_test, y_pred2))
    performance_scores['rf']['auc'].append(roc_auc2)

# 进行Nemenyi检验
for metric in performance_scores['lg']:
    # 将两个模型的该性能指标得分转换为数组
    scores_lg = np.array(performance_scores['lg'][metric])
    scores_rf = np.array(performance_scores['rf'][metric])
    
    # 执行Friedman检验
    friedman_stat, p = stats.friedmanchisquare(scores_lg, scores_rf)
    
    # 如果Friedman检验显著，执行Nemenyi后验检验
    if p < 0.05:
        nemenyi_result = stats.multiscale(scores_lg, scores_rf, method='nemenyi')
        print(f"Nemenyi Test for {metric}: {nemenyi_result}")
    else:
        print(f"No significant difference found by Friedman test for {metric}.")

示例代码运行方式

这段代码需要在具有Python环境的机器上运行，并且需要安装scikit-learn, imbalanced-learn, numpy, 和 scipy 这些库。可以使用pip命令安装所需的库：

pip install scikit-learn imbalanced-learn numpy scipy

运行代码前，请确保您的数据集X和目标变量y已经准备好，并且已经导入到您的Python环境中。

示例代码预期运行结果

代码将输出每个性能指标的Nemenyi检验结果，包括是否有显著差异以及相关的统计数据。如果Friedman检验的p值小于0.05，那么将执行Nemenyi后验检验，并输出检验结果。如果p值大于或等于0.05，则表明两个模型在该性能指标上没有显著差异。

编辑记录

报告相同问题？

关注问题

非参数检验——Wilcoxon 检验 & Friedman 检验与 Nemenyi 后续检验
2022-10-04 22:46

梁小憨憨的博客最近看论文，看到了Wilcoxon signed-rank test（符号秩检验），咱也不知道是个啥，就学习了一下，这里做一下笔记，方便以后查阅。
机器学习：Friedman检验与Nemenyi后续检验，Python实现
2020-10-01 20:29

fanstuck的博客本人大数据专业初入大三刚刚接触机器学习这一课程，教材是最典型的西瓜书，第一次作业当然就是利用本专业语言多功能python语言结合书内容尝试自己构建P-R曲线以及延伸指标曲线。当然初入一些算法和机器学习的一些库...
浅析R语言非参数检验的多组比较及分面与分组的图形艺术
2021-09-10 07:00

刘永鑫Adam的博客浅析R语言多组定量资料非参数检验的多组比较及簇状柱形图显著性字母标记之分面与分组的图形艺术R语言多组定量资料非参数检验的多组比较非参数检验的应用本流程是在刘永鑫老师提供的代码资料指导下完成...
机器学习笔记2
2018-08-11 11:41

编程方法论的博客误差(error):学习器的实际预测输出与样本真实输出之间的差异。训练误差(training error)/经验误差(empirical error):学习器在训练样本上的误差。泛化误差(generalization):模型在新样本上的误差. 我们实现不...
2020，CEC，Instance Selection for Geometric Semantic Genetic Programming
2023-04-08 14:55

青年有志的博客在一组 15 个数据集上进行了实验，实验分析表明通过实例加权和降维进行实例选择确实提高了搜索的有效性，并且对均方根误差结果几乎没有影响。 I. INTRODUCTION 数据回归是最流行的机器学习任务之一 [1]。给定一组...
【一起来啃西瓜书】——模型评估与选择
2022-01-05 08:17

Mr_Nobody17的博客 1.经验误差与过拟合 1）经验误差与泛化误差 a.错误率：测试样本中分类错误的样本数占总样本数的比例。 E=bm×100% E = \frac bm ×100 \% E=mb×100% b....Acc=km×100%=1−bm×100% ...例：假设我们有
模型评估与选择
2023-01-01 17:24

first青年危机的博客机器学习一书的学习笔记，如有不对欢迎交流。
What Makes a Great Maintainer of Open Source Projects?
2022-04-02 15:52

逝不等琴生的博客这些维护者在一系列不同的项目上工作，包括：操作系统(例如，Debian和Linux内核)、桌面界面(例如，GNOME和KDE)、社交编程环境(例如，GitLab)、知名的编程语言(例如，Python)和教育项目。我们的受访者分布在不同的...
周志华《机器学习》西瓜书笔记——更到第5章
2023-02-14 00:53

WangSoooCute的博客监督学习supervised learning=有导师学习：训练数据拥有标记信息，如分类、回归无监督学习unsupervised learning=无导师学习：训练数据没有标记信息，如聚类分类classification：欲预测的是离散值的一类学习任务，...
科学论文1-软件缺陷预测中基于聚类分析的特征选择方法
2016-10-30 13:58

ronghuilin的博客对我国一级刊物上的论文进行分析,希望广大程序员掌握学术论文的阅读方法,从中选择对自己工作最有效的方法和理论.
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月24日

悬赏问题

¥15 路由器考试怎么办，有懂行的吗 ,eNSP
¥20 前端二进制文件流图片转化异常
¥15 github上的这个C语言项目如何跑起来
¥15 java 判断某个数区间是否存在
¥15 appium控制多个雷电模拟器问题
¥15 C# iMobileDevice
¥15 谁会做这个啊#ensp#Boson NetSim
¥15 如何编写针对TPS6503320FRGE型号的电源管理芯片的编程代码？
¥15 设计简单目录管理系统，要满足以下内容
¥15 关于九十度混合耦合器信号分析问题