不平衡数据采样后accuracy变低

刚入门求解答！
采样后accuracy降低很多，但交叉验证CVaccuracy上升了。
RandomUnderSampler、 RandomOverSampler、SMOTE、SMOTEENN方法尝试了都这样，试了几个模型没有过拟合。这是怎么回事呀？
只关注CVaccuracy就可以了吗？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2025-03-13 20:50
关注
阿里嘎多学长整理AIGC生成，因移动端显示问题导致当前答案未能完全显示，请使用PC端查看更加详细的解答过程

不平衡数据采样后accuracy变低

你遇到了一个非常常见的问题！不平衡数据采样后，模型的accuracy可能会降低，这是因为采样方法可能会引入新的bias。你的尝试使用RandomUnderSampler、RandomOverSampler、SMOTE、SMOTEENN方法都没有解决问题，这可能是因为这些方法都有其局限性。

首先，让我们来分析一下你的情况：采样后accuracy降低，但交叉验证CVaccuracy上升了。这可能是因为采样方法引入了新的bias，使得模型在训练集上性能下降，但是在测试集上性能上升。

为了解决这个问题，你可以尝试以下几点：

使用多样化采样方法：你可以尝试使用多样化采样方法，例如：Adasyn、Borderline SMOTE、Edited SMOTE等。
使用 oversampling 和 undersampling 结合：你可以尝试使用 oversampling 和 undersampling 结合的方法，例如：SMOTE + RandomUnderSampler。
使用 cost-sensitive 学习：你可以尝试使用 cost-sensitive 学习，例如：使用 weighted loss function 或者使用 cost-sensitive classifier。
使用 ensemble 学习：你可以尝试使用 ensemble 学习，例如：使用 bagging 或者使用 boosting。

以下是一个使用 Adasyn 采样方法的示例代码：

from imblearn.over_sampling import ADASYN from sklearn.datasets import make_classification from sklearn.model_selection import train_test_split # 生成不平衡数据 X, y = make_classification(n_samples=1000, n_features=20, n_informative=10, n_redundant=5, n_repeated=5, n_classes=2, weights=[0.1, 0.9], random_state=42) # 切分数据 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 采样 adasyn = ADASYN(random_state=42) X_train_res, y_train_res = adasyn.fit_resample(X_train, y_train) # 训练模型 from sklearn.linear_model import LogisticRegression logreg = LogisticRegression() logreg.fit(X_train_res, y_train_res) # 评估模型 y_pred = logreg.predict(X_test) print("Accuracy:", accuracy_score(y_test, y_pred))

希望这些建议和示例代码能够帮助你解决问题！
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Llama-Factory如何应对类别不平衡数据？
2025-12-12 13:06

征途阿韦的博客本文介绍Llama-Factory如何通过数据预处理、加权损失函数和细粒度评估等手段，系统性解决大模型微调中的类别不平衡问题，提升少数类识别能力，适用于金融风控、医疗诊断等高风险场景。
DAY 15 不平衡数据的处理
2025-11-19 20:05

Salt_0728的博客实际中往往会混合用，比如先稍微给小猫凑点数据，再给小猫加点权重，最后用召回率判断效果～处理不平衡数据的方法主要分为三大类：数据层面、算法层面和评估指标层面。1. 数据层面：通过调整训练集的类别分布来缓解...
机器学习基础理论学习笔记（7）不平衡数据的改善
2021-12-18 16:22

Tony Einstein的博客 1.数据不平衡数据不平衡也可称作数据倾斜。在实际应用中，数据集的样本特别是分类问题上，不同标签的样本比例很可能是不均衡的。因此，如果直接使用算法训练进行分类，训练效果可能会很差（例如，某个标签的样本...
探索AI人工智能领域数据挖掘的无限可能
2025-05-08 01:09

AI智能探索者的博客本文旨在为读者提供关于AI领域中数据挖掘技术的全面理解。我们将涵盖从基础概念到高级应用的完整知识体系，包括数据预处理、特征工程、机器学习算法、深度学习模型以及实际应用案例。本文不仅关注理论原理，还将提供...
基于不平衡数据集的中风分析预测
2023-02-22 01:50

学不会只能哭的博客摘要：近些年来随着社会人口老龄化...本文聚焦于患者数据集中数据不平衡问题，运用四种改进方法，改变数据集的分布，对样本权值修改，采用单类学习，使用集成学习等方法，分析比较建立在医学诊断测试统计指标中灵敏度
AI人工智能核心算法原理与代码实例讲解：数据偏见
2024-06-12 00:31

光子AI的博客 AI人工智能核心算法原理与代码实例讲解：数据偏见 1.背景介绍在人工智能和机器学习的世界中，数据偏见（Data Bias）是一个不可忽视的问题。数据偏见不仅会影响模型的准确性，还可能导致不公平的决策，进而引发伦理...
如何解决数据不平衡问题？
2022-10-14 09:20

Wanderer001的博客目录一、什么是类别不平衡问题 ...对于数据倾斜的情况，如果选取的算法不合适，或者评价指标不合适，那么对于实际应用线上时效果往往会不尽人意，所以如何解决数据不平衡问题是实际生产中非常常见且重要的...
信用卡欺诈预测——多模型处理不平衡数据的探索
2020-08-12 03:39

QHD2015的博客信用卡欺诈预测——多模型处理不平衡数据的探索0 理解数据集1 数据探索及预处理2 特征工程3 模型训练及调参3.1 下采样方式3.2 过采样方法4 结论与思考 0 理解数据集本项目的数据来源自Kaggle的开源Credit Card ...
对于数据不平衡问题的处理
2020-08-12 21:24

fond_dependent的博客以代价敏感的决策树为例，可以从三个方面对其进行改造以适应不平衡数据的学习，这三个方面分别是决策阈值的选择方面、分裂标准的选择方面、剪枝方面，这三个方面都可以将代价矩阵引入。 3.3.1 MetaCost算法...
DAY13 不平衡数据的处理
2025-07-13 21:05

Irene.ll的博客在处理类别不平衡的数据集时，标准机器学习算法（如默认的随机森林）可能会过度偏向多数类，导致对少数类的预测性能很差。目的：在不改变已训练好的模型的情况下，根据业务需求调整精确率（Precision）和召回率...
机器学习基础知识点⑤数据增强、类别不平衡
2020-07-01 23:41

NLP_victor的博客 1、NLP数据增强技术 https://zhuanlan.zhihu.com/p/151726605 CV领域的标配，比如对图像的旋转、镜像、高斯白噪声等。（1）文本替代文本替代主要是针对在不改变句子含义的情况下，替换文本中的单词，比如，...
面向复杂和不平衡数据的双模块深度学习网络入侵检测模型
2025-05-22 16:19

hao_wujing的博客用于流量分类的 CSCA-CNN 集成了 CAM 和 CSL，从复杂和高维数据中提取深度特征，为少数群体分配了更高的成本，以减少数据不平衡造成的偏差。随后，我测试了这些经过训练的分类器的分类性能，以确定每种数据平衡方法...
如何用TensorFlow处理不平衡分类问题？
2025-12-27 14:20

MCPlayer542的博客在金融风控与医疗诊断等场景中，少数关键样本常被淹没于海量数据...通过TensorFlow的类权重、Focal Loss与动态采样策略，结合精准评估指标与完整部署链路，可构建真正鲁棒的反欺诈模型，让AI系统在真实业务中持续生效。
不平衡数据的处理
2020-03-30 19:26

溪逸筱的博客不平衡数据的处理1. 何为不平衡数据？2. 不平衡数据不经过处理，直接建模会产生什么影响？2.1 混淆矩阵1. 准确率（Accuracy）（1）什么是准确率？（2）计算公式2. 精确率（Precision）（1）什么是精确率？（2）计算...
高效数据架构：AI智能体帮你提升数据处理速度的8个技巧
2025-08-30 22:14

AI 小程序开发2020的博客我是张磊，资深数据架构师，专注于AI与数据系统的结合，拥有5年大型数据架构优化经验。曾主导某电商平台实时推荐系统的架构升级，将处理延迟从15秒降到2秒。欢迎关注我的公众号“数据架构实战”，分享更多可落地的...
DAY-13-不平衡数据的处理-2025.8.23
2025-08-22 14:36

mooooon L的博客摘要：本文介绍了不平衡数据集的处理策略（过采样、修改权重、调整阈值）和交叉验证方法（K折、分层K折、留一法、时间序列）。通过代码示例展示了不同交叉验证的实现方式，并提供了可视化功能。文章指出当前实验效果...
面对不平衡二元分类问题是否需要使用SMOTE技术？
2024-01-21 11:35

羽星_s的博客在机器学习中，面对不平衡二元分类问题是否需要使用SMOTE技术？
AI原生应用中的数据治理：增强智能系统的关键挑战
2025-04-30 09:47

AI大模型应用之禅的博客仅靠先进的算法无法构建可靠的智能系统，数据治理能力才是决定AI应用能否落地、能否持续创造价值的关键。本文将聚焦AI原生应用的特殊性（如实时数据依赖、动态模型迭代、多模态数据融合），分析数据治理在其中的独特...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月13日

不平衡数据采样后accuracy变低

5条回答 默认 最新

不平衡数据采样后accuracy变低

问题事件

5条回答默认最新