如题,CNN训练图像分类模型时,数据不平衡该如何处理?
我有如下4类图像:
A类140张
B类360张
C类1200张
D类80张
训练时:
方案一:直接用ABCD四类的所有图像进行训练,这样做肯定会有数据不平衡现象发生,结果有可能会偏向C类;
方案二:ABCD四类都取80张图像进行训练,这样不会导致不平衡现象发生,但是鲁棒性会不会变差?
方案三:其他更多的方案
各位,你们遇到这种情况是怎么做的?不吝赐教!
如题,CNN训练图像分类模型时,数据不平衡该如何处理?
我有如下4类图像:
A类140张
B类360张
C类1200张
D类80张
训练时:
方案一:直接用ABCD四类的所有图像进行训练,这样做肯定会有数据不平衡现象发生,结果有可能会偏向C类;
方案二:ABCD四类都取80张图像进行训练,这样不会导致不平衡现象发生,但是鲁棒性会不会变差?
方案三:其他更多的方案
各位,你们遇到这种情况是怎么做的?不吝赐教!
当你用所有数据进行训练的时候,结果大概率是偏向c的,但是在实际工程中,我们是不会采取说为了数据平衡而选取第二种方案的,数据量太少的模型毫无鲁棒性可言,所以这个时候你要么用数据增强去添加对应的数据,要么使用类似focalloss之类的手段去控制样本在训练时的权重。最本质的手段还是添加更多的原始数据,增强后的数据也不是首选。数据的质量决定了你的模型的上限