cal_me_martin 2021-04-30 16:42 采纳率: 0%
浏览 31

nlp 文本分类训练集和验证集准确率高,测试集准确率低的问题?

训练集和验证集准确率可以达到>90%但是测试集的准确率只达到了30%多,无论是textcnn还是bi-lstm+attention,模型准确率都是这样。

泛化的措施比如加l2正则,dropout,BN层,数据增强等方式都用了,但是还是这样。

数据都是一个数据集随机划分的。

有没有可能是数据训练的语句和标签的关系不大导致的,不能通过语句推出这个标签(之前的标签都是不同人打的,可能规则不一样,不准确?)

各位有没有什么思路或想法赐教下?

  • 写回答

1条回答 默认 最新

  • 爱挠静香的下巴 人工智能领域新星创作者 2023-01-13 17:22
    关注

    因为没看到数据集和代码,我这边简单提供一种可能性参考下哈
    首先你提到数据都是一个数据集随机划分的,可能存在的请况是本身类不平衡,导致你训练集和最早测试集标签分布相差较大,你切换随机种子试试呢,或者按照类别做分层抽样去划分数据集,也可以调换验证集和测试集。
    上述操作的目的就是看看是否存在随机划分导致数据分布相差较大的问题

    评论

报告相同问题?

悬赏问题

  • ¥30 这是哪个作者做的宝宝起名网站
  • ¥60 版本过低apk如何修改可以兼容新的安卓系统
  • ¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
  • ¥50 有数据,怎么建立模型求影响全要素生产率的因素
  • ¥50 有数据,怎么用matlab求全要素生产率
  • ¥15 TI的insta-spin例程
  • ¥15 完成下列问题完成下列问题
  • ¥15 C#算法问题, 不知道怎么处理这个数据的转换
  • ¥15 YoloV5 第三方库的版本对照问题
  • ¥15 请完成下列相关问题!