不平衡数据的分类问题

在数据挖掘中，我采用机器学习算法解决二分类问题。数据极其不平衡，非平衡率（好样本：坏样本）高达1：500。请问采用什么机器学习算法和数据采样技术，或者两者的结合，可以解决这种数据极其非平衡的二分类问题，使得模型具有较高的召回率或f1值。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2019-10-16 09:02
关注
两个办法，一个是通过复制的方式扩展坏样本，凑到和好样本一样多
一个是修改损失函数，将坏样本识别为好样本（漏报）的权重远远大于误报（好样本识别为坏样本）的权重

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

jupyter notebook AI人工智能数据预处理中数据脱敏碰到的问题 jupyter python 数据库有问必答
2022-04-06 12:23

回答 3 已采纳建议百度查看下pandas的read_csv()函数参数的意思就知道了。前面的是路径，后面的index_col是将原来的列名设置为"ssn"至于coding换成点不行，那就是路径不对，这个涉及到相对路
基于人工智能的三维数据处理人工智能
2023-03-20 13:45

回答 1 已采纳参考GPT和自己的思路：可以尝试在其他学术搜索引擎上搜索相关文献，例如Google Scholar或者IEEE Xplore。你也可以搜索相关的会议和期刊，例如CVPR和ICCV，这些会议和期刊的论
研究人工智能时的几个问题人工智能机器学习深度学习
2023-02-07 21:34

回答 18 已采纳 1.目前的人工智能技术并不能完全不需要人类的干预。人工智能系统通常需要人类提供数据、指导和规则来学习，并在人类的监督下进行验证和评估。不过，人工智能系统在学习过程中也可以自主发现规律，并利用这
Marketing 不平衡分类数据集
2021-03-09 15:14

Marketing 不平衡分类数据集
人工智能就业问题，职业发展 python 人工智能有问必答
2022-11-11 13:34

回答 6 已采纳还是比较好就业的作为席卷全球的前沿科技——人工智能，英文又称AI，已经融合到各行各业，给人类的生产生活带来深刻的变革。　　人工智能在金融领域、公共安全领域、教育领域、医疗健康领域、工业制造领域、交通领
Fahion-MNIST(图像分类数据集)的样本标签不可以使用中文 python 人工智能
2022-07-29 22:21

回答 1 已采纳字体问题，在这之前加一句d2l.plt.rcParams['font.sans-serif'] = 'SimHei' 就可以解决
关于往AI方向学习的一些问题(标签-人工智能,) 人工智能深度学习
2022-02-19 03:08

回答 2 已采纳基础数学：概率论，统计学，高数基础算法：统计学习方法第二版一书中的算法深度学习基础：cnn，rnn，bp算法，常见损失函数，常见优化方法工具：Python，pytorch，TensorFlow专业基础
使用分类权重解决数据不平衡的问题
2022-08-01 10:33

deephub的博客在分类任务中，不平衡数据集是指数据集中的分类不平均的情况，会有一个或多个类比其他类多的多或者少的多。
gis相差值分类问题人工智能
2021-09-16 16:22

回答 1 已采纳有两种方法：1、添加一个字段，把比较结果按照大于0，等于0，小于0填入1、0、-1。然后按照这个字段分类标注：2、复制两个层，分别把这三个层filter设置成比较结果大于0，等于0，小于0三个条件。再
pytorch数据集出现问题?? pytorch 人工智能
2021-07-16 17:15

回答 1 已采纳 [[1.0],[2.0],[3.0]],下面一样外面加层括号
关于#重复数据#的问题，如何解决？ c++ 数据结构算法
2023-02-20 19:27

回答 3 已采纳我用的qt写出来的，代码都类似，稍微修改就好了。思路是将数组b转化为List容器，通过indexOf就能很好判断a中的数据是否在b中。你的代码循环了n*n次，我的代码循环了
数据不平衡分类问题
2019-09-18 19:15

cpongo8的博客有些问题其原始数据的分布就存在不平衡，如通过卫星雷达图片检测海面石油油污、监测信用卡非法交易、发掘基因序列中编码信息以及医学数据分类等。所谓的数据不平衡是指：数据集样本类别极不均衡。不平衡数据的学习...
长尾问题数据不平衡学习笔记
2022-04-18 14:26

AI视觉网奇的博客数据不平衡问题在现实世界中非常普遍。对于真实数据，不同类别的数据量一般不会是理想的uniform分布，而往往会是不平衡的；如果按照不同类别数据出现的频率从高到低排序，就会发现数据分布出现一个“长尾巴”，也即...
快速解决“多分类不平衡”问题
2022-04-17 21:55

56kb的博客多分类问题为何模型准确率只有70%？怎么通过调参提高准确率，调参对这有用吗？想明白这些问题，就看看这篇文章吧，看完之后你一定会有收获。
处理深度学习中数据集不平衡问题方法汇总
2019-02-12 17:07

一江明澈的水的博客在一个分类问题中，如果在所有你想要预测的类别里有一个或者多个类别的样本量非常少，那你的数据也许就面临不平衡类别的问题。如： 1.欺诈预测（欺诈的数量远远小于真实交易的数量） 2.自然灾害预测（不好的事情...
没有解决我的问题, 去提问

悬赏问题

¥15 优质github账号直接兑换rmb，感兴趣伙伴可以私信
¥15 错误(10048): “调用exui内部功能”库命令的参数“参数4”不能接受空数据。怎么解决啊
¥15 安装svn网络有问题怎么办
¥15 Python爬取指定微博话题下的内容，保存为txt
¥15 vue2登录调用后端接口如何实现
¥65 永磁型步进电机PID算法
¥15 sqlite 附加（attach database）加密数据库时，返回26是什么原因呢？
¥88 找成都本地经验丰富懂小程序开发的技术大咖
¥15 如何处理复杂数据表格的除法运算
¥15 如何用stc8h1k08的片子做485数据透传的功能？(关键词-串口)