严重的非平衡数据二分类问题

数据挖掘中，利用机器学习算法解决二分类问题，数据样本分布极不平衡：
好样本和坏样本之间的比率高达500：1，
请问采用什么机器学习算法和数据采样方法，或者两者的可以解决这样的数据极不平衡问题？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2019-10-16 09:03
关注
两个办法，一个是通过复制的方式扩展坏样本，凑到和好样本一样多
一个是修改损失函数，将坏样本识别为好样本（漏报）的权重远远大于误报（好样本识别为坏样本）的权重

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

jupyter notebook AI人工智能数据预处理中数据脱敏碰到的问题 jupyter python 数据库有问必答
2022-04-06 12:23

回答 3 已采纳建议百度查看下pandas的read_csv()函数参数的意思就知道了。前面的是路径，后面的index_col是将原来的列名设置为"ssn"至于coding换成点不行，那就是路径不对，这个涉及到相对路
基于人工智能的三维数据处理人工智能
2023-03-20 13:45

回答 1 已采纳参考GPT和自己的思路：可以尝试在其他学术搜索引擎上搜索相关文献，例如Google Scholar或者IEEE Xplore。你也可以搜索相关的会议和期刊，例如CVPR和ICCV，这些会议和期刊的论
BERT文本二分类LOSS变化 bert pytorch 分类
2023-03-24 21:10

回答 1 已采纳对于严重不均衡的数据集，模型容易出现偏差，导致对于少数类的预测效果较差。因此，需要对数据集进行一些处理来平衡数据，以提高模型的预测能力。具体处理方法有以下几种：过采样（Oversampling）：
matlab怎么处理非平衡数据处理,处理非平衡数据的七个技巧
2021-03-22 08:15

知乎知+自选的博客原标题：处理非平衡数据的七个技巧摘要：本文介绍了在入侵检测、实时出价等数据集非常不平衡的领域应用的数据处理技术。关键字：平衡数据，数据准备，数据科学原文：7 Techniques to Handle Imbalanced Data...
二分类的f1 score一般多大算合格？人工智能深度学习神经网络
2022-03-30 22:17

回答 2 已采纳不妨参考一下F1 score的公式做一个简单的基准模型，假设正类在数据集中占比为a，对于数据集中的任一样本，均将其预测为正类，根据公式f1_score = a / (a - (1 - a) / 2)
研究人工智能时的几个问题人工智能机器学习深度学习
2023-02-07 21:34

回答 18 已采纳 1.目前的人工智能技术并不能完全不需要人类的干预。人工智能系统通常需要人类提供数据、指导和规则来学习，并在人类的监督下进行验证和评估。不过，人工智能系统在学习过程中也可以自主发现规律，并利用这
人工智能就业问题，职业发展 python 人工智能有问必答
2022-11-11 13:34

回答 6 已采纳还是比较好就业的作为席卷全球的前沿科技——人工智能，英文又称AI，已经融合到各行各业，给人类的生产生活带来深刻的变革。　　人工智能在金融领域、公共安全领域、教育领域、医疗健康领域、工业制造领域、交通领
如何使用逻辑回归处理非平衡数据的问题
2024-01-08 01:28

禅与计算机程序设计艺术的博客在这种情况下，使用传统的逻辑回归算法可能会导致模型在疾病类别上的预测性能非常差，这就是非平衡数据的问题。在这篇文章中，我们将讨论如何使用逻辑回归处理非平衡数据的问题。我们将从以下几个方面进行讨论： ...
人工智能导论模型与算法书的课后题实在不会好商量支持向量机机器学习svm 分类边界错误率分离边界发生变化实现，考虑一个在二维特征空间中的二类分析问题，训练集包含八个样本其在二维空间中的分布如图人工智能机器学习
2022-05-19 10:12

回答 1 已采纳理解支持向量，bargin的含义就行，支持向量机的分类超平面只和支持向量样本有关
关于#重复数据#的问题，如何解决？ c++ 数据结构算法
2023-02-20 19:27

回答 3 已采纳我用的qt写出来的，代码都类似，稍微修改就好了。思路是将数组b转化为List容器，通过indexOf就能很好判断a中的数据是否在b中。你的代码循环了n*n次，我的代码循环了
关于往AI方向学习的一些问题(标签-人工智能,) 人工智能深度学习
2022-02-19 03:08

回答 2 已采纳基础数学：概率论，统计学，高数基础算法：统计学习方法第二版一书中的算法深度学习基础：cnn，rnn，bp算法，常见损失函数，常见优化方法工具：Python，pytorch，TensorFlow专业基础
处理深度学习中数据集不平衡问题方法汇总
2019-02-12 17:07

一江明澈的水的博客在一个分类问题中，如果在所有你想要预测的类别里有一个或者多个类别的样本量非常少，那你的数据也许就面临不平衡类别的问题。如： 1.欺诈预测（欺诈的数量远远小于真实交易的数量） 2.自然灾害预测（不好的事情...
机器学习之不平衡数据集的处理方法
2022-05-07 16:48

茫茫人海一粒沙的博客以二分类问题为例，假设正类的样本数量远大于负类的样本数量，这种情况下的数据称为不平衡数据 1.2 举例在二分类问题中，训练集中class 1的样本数比上class 2的样本数的比值为60:1。使用逻辑回归进行分类，最后结果...
极端类别不平衡数据下的分类问题研究综述，终于有人讲全了！
2019-11-04 19:30

Datawhale的博客不平衡学习是机器学习问题的一个重要子域，其主要关注于如何从类别分布不均衡的数据中学习数据的模式。在这篇文章中我们主要关注不平衡分类问题，特别地，我们主要关注类别极端不平衡...
论文笔记：从不平衡数据流中学习的综述: 分类、挑战、实证研究和可重复的实验框架
2023-08-24 10:26

HenrySmale的博客实验研究在515个不平衡数据流上评估了24个最先进的数据流算法，在二分类和多分类场景下这些数据流结合了静态和动态类不平衡比率、实例级困难、概念漂移、真实世界和半合成数据集。这导致了一项大规模的实验研究，...
没有解决我的问题, 去提问

悬赏问题

¥15 关于#网络安全#的问题：求ensp的网络安全，不要步骤要完成版文件
¥15 可否在不同线程中调用封装数据库操作的类
¥20 使用Photon PUN2解决游戏得分同步的问题
¥15 微带串馈天线阵列每个阵元宽度计算
¥15 keil的map文件中Image component sizes各项意思
¥30 BC260Y用MQTT向阿里云发布主题消息一直错误
¥20 求个正点原子stm32f407开发版的贪吃蛇游戏
¥15 划分vlan后，链路不通了？
¥20 求各位懂行的人，注册表能不能看到usb使用得具体信息，干了什么，传输了什么数据
¥15 Vue3 大型图片数据拖动排序

严重的非平衡数据二分类问题

1条回答 默认 最新

悬赏问题

1条回答默认最新