LL YANG 2022-09-09 10:25 采纳率: 29.4%
浏览 21
已结题

数据集如果只要其中的某两类?

现有一个包含2w多张的数据集,13个类别。但是我只想要其中的两个类别。
现在的一个问题是,比如某一类的train中有5000张图片,但只有400张正样本图片。train_txt中的负样本占比约90%。
这样训练会不会存在正负样本不均衡,导致训练效果差的问题?
除了改json文件,我要训练全部的图片吗?

  • 写回答

1条回答 默认 最新

  • ·星辰大海 2022-09-09 10:34
    关注

    如果要做样本均衡,可以将原来的正样本加大权重多复制一些,或者镜像,旋转,放大缩小之后在加入到样本集中,并在训练的时候关掉相关的图像预处理,也可以在不影响样本主要特征情况下用ps将正样本无关紧要的特征做修改,每次修改都可以多出一个正样本。
    当然你可以不用训练全部的样本,如果分类的特征较为明显,较为简单的话,800-1000个样本足以有一个好的分类效果。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 10月17日
  • 已采纳回答 10月9日
  • 创建了问题 9月9日

悬赏问题

  • ¥50 vue组件中无法正确接收并处理axios请求
  • ¥15 隐藏系统界面pdf的打印、下载按钮
  • ¥15 MATLAB联合adams仿真卡死如何解决(代码模型无问题)
  • ¥15 基于pso参数优化的LightGBM分类模型
  • ¥15 安装Paddleocr时报错无法解决
  • ¥15 python中transformers可以正常下载,但是没有办法使用pipeline
  • ¥50 分布式追踪trace异常问题
  • ¥15 人在外地出差,速帮一点点
  • ¥15 如何使用canvas在图片上进行如下的标注,以下代码不起作用,如何修改
  • ¥50 vue router 动态路由问题