数据严重不均衡还有救吗。。
请问,请问,请问
如图所示,对大量文本拆分为了15个标签维度,分为了3类情感,分别为0代表不相关,1代表该标签的负向评论,2代表该标签的正向评论,图中为统计的各标签数量。其中每个标签里0的数量基本都达到了五六千条,1和2则为小几百条(正在把几十条的补充到200条),因为在提高1和2的同时,势必会增加其他标签中0的数量,而且在现在的情况下势必无法达到0、1、2数量的均衡。
现在我需要用这份数据作为训练集,请问还有救吗。。应该怎么处理呢?因为我用这份数据进行机器学习后完全无法学习成功然后实现自动标注。1和2完全打不到。。 T_T
0: 4898 4991 5161 4401 5284 5849 5585 5527 5548 5719
1: 469 329 143 226 36 192 239 233 236 53
2: 720 766 782 1459 767 46 263 326 302 315
文科学生一窍不通。。https://img-mid.csdnimg.cn/release/static/image/mid/ask/11ec97c5f8d846b39217d0a9bde1f4fc.png "#left")