严重的非平衡数据二分类问题

数据挖掘中，利用机器学习算法解决二分类问题，数据样本分布极不平衡：
好样本和坏样本之间的比率高达500：1，
请问采用什么机器学习算法和数据采样方法，或者两者的可以解决这样的数据极不平衡问题？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2019-10-16 09:03
关注
两个办法，一个是通过复制的方式扩展坏样本，凑到和好样本一样多
一个是修改损失函数，将坏样本识别为好样本（漏报）的权重远远大于误报（好样本识别为坏样本）的权重

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

jupyter notebook AI人工智能数据预处理中数据脱敏碰到的问题 jupyter python 数据库有问必答
2022-04-06 12:23

回答 3 已采纳建议百度查看下pandas的read_csv()函数参数的意思就知道了。前面的是路径，后面的index_col是将原来的列名设置为"ssn"至于coding换成点不行，那就是路径不对，这个涉及到相对路
基于人工智能的三维数据处理人工智能
2023-03-20 13:45

回答 1 已采纳参考GPT和自己的思路：可以尝试在其他学术搜索引擎上搜索相关文献，例如Google Scholar或者IEEE Xplore。你也可以搜索相关的会议和期刊，例如CVPR和ICCV，这些会议和期刊的论
BERT文本二分类LOSS变化 bert pytorch 分类
2023-03-24 21:10

回答 1 已采纳对于严重不均衡的数据集，模型容易出现偏差，导致对于少数类的预测效果较差。因此，需要对数据集进行一些处理来平衡数据，以提高模型的预测能力。具体处理方法有以下几种：过采样（Oversampling）：
matlab怎么处理非平衡数据处理,处理非平衡数据的七个技巧
2021-03-22 08:15

知乎知+自选的博客原标题：处理非平衡数据的七个技巧摘要：本文介绍了在入侵检测、实时出价等数据集非常不平衡的领域应用的数据处理技术。关键字：平衡数据，数据准备，数据科学原文：7 Techniques to Handle Imbalanced Data...
二分类的f1 score一般多大算合格？人工智能深度学习神经网络
2022-03-30 22:17

回答 2 已采纳不妨参考一下F1 score的公式做一个简单的基准模型，假设正类在数据集中占比为a，对于数据集中的任一样本，均将其预测为正类，根据公式f1_score = a / (a - (1 - a) / 2)
研究人工智能时的几个问题人工智能机器学习深度学习
2023-02-07 21:34

回答 18 已采纳 1.目前的人工智能技术并不能完全不需要人类的干预。人工智能系统通常需要人类提供数据、指导和规则来学习，并在人类的监督下进行验证和评估。不过，人工智能系统在学习过程中也可以自主发现规律，并利用这
人工智能就业问题，职业发展 python 人工智能有问必答
2022-11-11 13:34

回答 6 已采纳还是比较好就业的作为席卷全球的前沿科技——人工智能，英文又称AI，已经融合到各行各业，给人类的生产生活带来深刻的变革。　　人工智能在金融领域、公共安全领域、教育领域、医疗健康领域、工业制造领域、交通领
如何使用逻辑回归处理非平衡数据的问题
2024-01-08 01:28

禅与计算机程序设计艺术的博客在这种情况下，使用传统的逻辑回归算法可能会导致模型在疾病类别上的预测性能非常差，这就是非平衡数据的问题。在这篇文章中，我们将讨论如何使用逻辑回归处理非平衡数据的问题。我们将从以下几个方面进行讨论： ...
人工智能导论模型与算法书的课后题实在不会好商量支持向量机机器学习svm 分类边界错误率分离边界发生变化实现，考虑一个在二维特征空间中的二类分析问题，训练集包含八个样本其在二维空间中的分布如图人工智能机器学习
2022-05-19 10:12

回答 1 已采纳理解支持向量，bargin的含义就行，支持向量机的分类超平面只和支持向量样本有关
关于#重复数据#的问题，如何解决？ c++ 数据结构算法
2023-02-20 19:27

回答 3 已采纳我用的qt写出来的，代码都类似，稍微修改就好了。思路是将数组b转化为List容器，通过indexOf就能很好判断a中的数据是否在b中。你的代码循环了n*n次，我的代码循环了
关于往AI方向学习的一些问题(标签-人工智能,) 人工智能深度学习
2022-02-19 03:08

回答 2 已采纳基础数学：概率论，统计学，高数基础算法：统计学习方法第二版一书中的算法深度学习基础：cnn，rnn，bp算法，常见损失函数，常见优化方法工具：Python，pytorch，TensorFlow专业基础
处理深度学习中数据集不平衡问题方法汇总
2019-02-12 17:07

一江明澈的水的博客在一个分类问题中，如果在所有你想要预测的类别里有一个或者多个类别的样本量非常少，那你的数据也许就面临不平衡类别的问题。如： 1.欺诈预测（欺诈的数量远远小于真实交易的数量） 2.自然灾害预测（不好的事情...
机器学习之不平衡数据集的处理方法
2022-05-07 16:48

茫茫人海一粒沙的博客以二分类问题为例，假设正类的样本数量远大于负类的样本数量，这种情况下的数据称为不平衡数据 1.2 举例在二分类问题中，训练集中class 1的样本数比上class 2的样本数的比值为60:1。使用逻辑回归进行分类，最后结果...
分类中解决类别不平衡问题
2021-12-06 10:05

小白学视觉的博客点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达目录：1.什么是类别不平衡问题2.解决类别不平衡问题2.1欠采样方法(1)什么是欠采样方法(2)随机欠采样方法(3)欠...
设置损失函数解决数据集类别不平衡问题
2022-08-30 15:31

七白学长的博客这里主要介绍CEloss的权重设置，因为大家无论是分类还是分割都可以用到CEloss，而且很多模型一开始自带的损失函数就是CEloss。
没有解决我的问题, 去提问

悬赏问题

¥15 关于#python#的问题：求帮写python代码
¥15 LiBeAs的带隙等于0.997eV,计算阴离子的N和P
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘
¥15 来真人，不要ai！matlab有关常微分方程的问题求解决，
¥15 perl MISA分析p3_in脚本出错
¥15 k8s部署jupyterlab，jupyterlab保存不了文件
¥15 ubuntu虚拟机打包apk错误
¥199 rust编程架构设计的方案有偿
¥15 回答4f系统的像差计算
¥15 java如何提取出pdf里的文字？