以随机森林为分类器，探究不同不平衡率的数据运用哪种重采样方式更好

想做以随机森林为分类器，探究不同不平衡率的数据运用哪种重采样方式更好的研究
代码如下：

from warnings import simplefilter
simplefilter(action='ignore', category=FutureWarning)
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn import metrics
from sklearn.metrics import roc_curve, auc, roc_auc_score 
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report


data = pd.read_csv("C:/Users/victiger/Desktop/realp1.csv")
target_column = "target"
X=data.iloc[:,0:8]
 y = data[target_column]
# 拆分数据集为训练集和测试集
 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
 print(X_train)
# 创建随机森林分类器
rf_classifier = RandomForestClassifier(n_estimators=100, random_state=42)
rf_classifier= rf_classifier.fit(X_train, y_train)
# 在测试集上进行预测
y_pred = rf_classifier.predict(X_test)
print('Classification Report:\n', classification_report(y_test, y_pred))
# 评估模型性能
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')
# 计算auc
result = roc_auc_score(y_test, rfc.predict_proba(X_test)[:,1])
print(result)

第一张图是1:1平衡数据的准确性，其auc是0.99。第二张是不平衡率1:100的准确性，auc是0.96。两个数据都还没进行重采样处理。
想关注少数类，是不是应该描述1的预测准确性而不是总的？auc为什么会这么高，是少了什么步骤吗？文章中应该怎么解释呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-04-11 16:36
关注
引自免费微信小程序：皆我百晓生

首先，针对您的问题，我们确实需要关注的是少数类（在您的例子中是标签为1的类别），因为不平衡数据的问题主要影响了少数类的识别。在分类报告中，关注recall指标（也称为查准率或真正例率）对于少数类更为重要，因为它衡量了正确预测为正样本的比例。

关于AUC值为什么较高，可能的原因有：

数据分布：尽管数据严重不平衡，但随机森林在处理高维数据和特征选择方面通常表现良好，这可能导致即使在少数类上也有较高的预测能力。
随机性：随机森林的决策树结构和集成方法本身就具有一定的鲁棒性，可能在某些情况下能较好地处理不平衡数据。

为了更深入地探讨不同重采样策略的效果，我们可以尝试以下几种方法：

过采样：增加少数类样本，例如SMOTE（Synthetic Minority Over-sampling Technique）。
欠采样：减少多数类样本，例如RandomUnderSampler。
SMOTE+ Tomek Links：结合过采样和欠采样，同时减少噪声点。
Class Weighting：在随机森林的fit函数中设置class_weight='balanced'，让算法自动调整对每类样本的权重。

下面是一个完整的代码示例，用于比较这些重采样策略：

from imblearn.over_sampling import SMOTE, RandomOverSampler from imblearn.under_sampling import RandomUnderSampler from imblearn.combine import SMOTETomek from sklearn.utils import class_weight # 1. 过采样 smote = SMOTE(random_state=42) X_smote, y_smote = smote.fit_resample(X_train, y_train) # 2. 欠采样 rus = RandomUnderSampler(random_state=42) X_rus, y_rus = rus.fit_resample(X_train, y_train) # 3. SMOTE+Tomek Links smotetk = SMOTETomek(random_state=42) X_smotetk, y_smotetk = smotetk.fit_resample(X_train, y_train) # 4. Class Weighting (默认不使用重采样) class_weights = class_weight.compute_class_weight('balanced', np.unique(y_train), y_train) rf_classifier_balanced = RandomForestClassifier(n_estimators=100, random_state=42, class_weight=class_weights) rf_classifier_balanced.fit(X_train, y_train) # 对每个策略分别进行评估 results = { 'Original': {'accuracy': accuracy_score(y_test, rf_classifier.predict(X_test)), 'roc_auc': roc_auc_score(y_test, rf_classifier.predict_proba(X_test)[:, 1])}, 'SMOTE': {'accuracy': accuracy_score(y_test, rf_classifier_smote.predict(X_test)), 'roc_auc': roc_auc_score(y_test, rf_classifier_smote.predict_proba(X_test)[:, 1])}, 'Random Under-Sampling': {'accuracy': accuracy_score(y_test, rf_classifier_rus.predict(X_test)), 'roc_auc': roc_auc_score(y_test, rf_classifier_rus.predict_proba(X_test)[:, 1])}, 'SMOTE+Tomek': {'accuracy': accuracy_score(y_test, rf_classifier_smotetk.predict(X_test)), 'roc_auc': roc_auc_score(y_test, rf_classifier_smotetk.predict_proba(X_test)[:, 1])}, 'Class Weighting': {'accuracy': accuracy_score(y_test, rf_classifier_balanced.predict(X_test)), 'roc_auc': roc_auc_score(y_test, rf_classifier_balanced.predict_proba(X_test)[:, 1])} } # 生成表格和图形展示结果 df_results = pd.DataFrame(results, index=['Accuracy', 'ROC AUC']) df_results.index.name = 'Sampling Strategy' sns.set(style="whitegrid") ax = df_results.plot(kind='bar', figsize=(10, 6), title='Comparison of Different Sampling Strategies') ax.set_ylabel('Score') plt.show()

这个代码将分别计算原始数据、SMOTE、随机欠采样、SMOTE+Tomek和加权类别的准确性和AUC，并将结果可视化。您可以根据这些结果选择最适合您数据的重采样策略。

在文章中，您可以这样解释：

原始数据：展示了数据不平衡时的模型性能，强调了少数类识别的挑战。
重采样策略：对比了不同的处理方法，说明过采样（如SMOTE）有助于提高少数类的识别，而欠采样（如RandomUnderSampler）可能会损失信息。
Class Weighting：虽然没有直接重采样，但通过调整权重可以平衡不同类别的影响，效果可能介于两者之间。
选择策略：根据AUC和精度的变化，讨论哪种策略对于特定任务（如提高召回率或整体性能）更为合适。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

随机森林分类器中不包含.score模块吗 python 机器学习随机森林
2022-09-26 15:29

回答 2 已采纳这里的参数给错了，n_estimators参数类型要求为int，但是你给的是一个NoneType，改成这样试试：clf = RandomForestClassifier(n_estimators=10
随机森林用于计算变量的重要性算预测还是分类功能呀？ python r语言随机森林
2022-04-22 19:17

回答 1 已采纳一般是用来评估，所以算是预测吧。主要就是信息，熵，决策树。理解了决策树的话，RF也好理解了https://zhuanlan.zhihu.com/p/54286825
为什么同样的数据，用随机森林跑了几次只需要一个小时，换成svm却跑了十几个小时还没训练完成呢。 python 有问必答机器学习
2022-03-28 10:12

回答 3 已采纳 SVM这种使用核技巧的决策函数计算成本关于训练样本数目是线性的，在选择多项式核、次数一多时效果尤为明显，根本算不出来相比决策树的计算复杂度就没那么高
基于sklearn随机森林算法探究肥胖的成因
2022-05-30 09:00

艾派森的博客 随机森林算法决策树 随机森林定义 随机森林构建过程 随机森林算法评价 随机森林算法的发展现状及趋势实验步骤 1.导入模块与数据 2.查看数据 3.数据预处理 4.可视化分析 5.特征工程 6.构建模型实验...
有思路，不会打代码，如何实现，目前只学了c语言和数据结构 c语言数据结构有问必答
2023-03-17 15:58

回答 3 已采纳该回答引用ChatGPT，希望能对你有帮助，你试试看看能不能解决问题以下是一个简单的 C 语言实现，该程序根据输入的关键词和训练数据，使用朴素贝叶斯算法判断一封邮件是否为垃圾邮件。 #include
同一数据集划分不同类别，会影响神经网络分类准确率吗人工智能深度学习神经网络
2023-03-02 22:15

回答 1 已采纳基于Monster 组和GPT的调写：假设两个 VGG16 网络使用不同的训练集进行训练，其中训练集的类别不完全相同。虽然训练集中的“人”和“狗”类别相同，但其中一个网络在训练集中包含更多的猫类别。
为什么weka中的linearregression算法不能像J48那样做分类预测？人工智能数据挖掘机器学习
2020-06-25 22:35

回答 1 已采纳 https://blog.csdn.net/qq_30589271/article/details/79037406
DS/ML：数据科学技术之机器学习领域六大阶段最强学习路线(初步探索性数据分析EDA→数据预处理/广义的特征工程→模型训练/评估/推理→模型分析/反思/再优化→模型部署与监控→模型全流程优化)详解
2022-12-31 23:47

一个处女座的程序猿的博客导读：数据科学和机器学习实战最强学习路线，博主这次花了真的是好久好久的时间(大概数不清的凌晨吧)，以数据科学生命周期和机器学习工程化的视角进行了精心整理，今天终于结束了，真心不容易……希望能够对家学习...
数据挖掘分类中关于分类器评估度量的一道题数据挖掘
2018-12-18 14:57

回答 1 已采纳由图可知正元组有5个，负元组有5个，所以P=5，N=5。（1）由元组1开始，该元组具有最高的概率得分，取该得分为阈值，即t=0.95，这样，分类器认为大于等于t的为正元组，故元组1为正，而其他元组
如何统计关键字出现的频数以及概率，不像常见的int，double，char等数据，汉字怎么比较是否相同 c语言数据结构有问必答
2023-03-18 21:49

回答 3 已采纳汉字就是字符串，用字符串的比较方式。 //结果为0，则相等 strcmp(str1,str2);
pycharm数据分析导入数据集，打印输出格式不一致 pycharm python 数据分析
2022-09-05 13:58

回答 1 已采纳 1,sklearn包自带数据集为列表，输出为字典键值对格式2，pandas用read_csv打开的是逐行读取输出为行列表格。可以转化为sklearn格式
因果推断笔记——数据科学领域因果推断案例集锦（九）
2021-09-09 11:30

悟乙己的博客 2.1 观测数据、实验数据的理论介绍 ![image.png](https://img-blog.csdnimg.cn/img_convert/c66bdbcdd86d5031040f51924397952d.png#clientId=u8e2473a0-856a-4&from=paste&height=746&id=ud2728b80...
大家好，请问python如何使用自定义时间段去分割数据，统计各个时间段的刷卡数量？IC卡数据分析 python 分类数据分析
2021-08-13 16:46

回答 1 已采纳把日期转成时间戳比较？
泰迪杯挑战赛优秀论文-A题-基于数据挖掘的上市公司高送转预测
2020-12-01 11:38

爱学习的数据喵的博客 1.3本文主要工作与创新点 1.4模型假设 1.5本文研究意义第 2 章相关理论 2.1高送转相关知识介绍 2.1.1高送转的实质 2.1.2预测下一年上市公司高送转的一些其他条件 2.2机器学习算法介绍 2.2.1LogisticRegressor ...
数据分析必问：Pandas面试题及参考答案
2024-05-22 08:35

大模型大数据攻城狮的博客 DataFrame是Pandas库中的一个核心数据结构，它类似于Excel中的表格，可以存储不同类型的数据。在Pandas中，抽样操作通常很简单，但是需要根据数据的特点和分析的需求来选择合适的抽样方法。数据标准化和归一化是数据...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月11日

悬赏问题

¥20 求下下面这个数据结构代码
¥15 路由器考试怎么办，有懂行的吗 ,eNSP
¥20 前端二进制文件流图片转化异常
¥15 github上的这个C语言项目如何跑起来
¥15 java 判断某个数区间是否存在
¥15 appium控制多个雷电模拟器问题
¥15 C# iMobileDevice
¥15 谁会做这个啊#ensp#Boson NetSim
¥15 如何编写针对TPS6503320FRGE型号的电源管理芯片的编程代码？
¥15 设计简单目录管理系统，要满足以下内容

以随机森林为分类器，探究不同不平衡率的数据运用哪种重采样方式更好

6条回答 默认 最新

问题事件

悬赏问题

6条回答默认最新