nlp 文本分类训练集和验证集准确率高，测试集准确率低的问题？

训练集和验证集准确率可以达到>90%但是测试集的准确率只达到了30%多，无论是textcnn还是bi-lstm+attention，模型准确率都是这样。

泛化的措施比如加l2正则，dropout,BN层，数据增强等方式都用了，但是还是这样。

数据都是一个数据集随机划分的。

有没有可能是数据训练的语句和标签的关系不大导致的，不能通过语句推出这个标签（之前的标签都是不同人打的，可能规则不一样，不准确？）

各位有没有什么思路或想法赐教下？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
爱挠静香的下巴人工智能领域新星创作者 2023-01-13 17:22
关注
因为没看到数据集和代码，我这边简单提供一种可能性参考下哈
首先你提到数据都是一个数据集随机划分的，可能存在的请况是本身类不平衡，导致你训练集和最早测试集标签分布相差较大，你切换随机种子试试呢，或者按照类别做分层抽样去划分数据集，也可以调换验证集和测试集。
上述操作的目的就是看看是否存在随机划分导致数据分布相差较大的问题

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

请问图中是什么情况，训练集和测试集准确率、loss值变化不大 python tensorflow 深度学习神经网络自然语言处理
2020-05-07 13:18

回答 3 已采纳验证的正确率刚开始就接近1？你用的是一个已经训练好的模型吗？
多标签文本分类模型训练后在验证集上F1值为0 pytorch 分类自然语言处理
2023-04-16 13:55

回答 2 已采纳你好，根据你提供的信息，可能有以下几个原因：数据集问题：可能训练集和验证集的数据分布不一致，导致模型在验证集上表现不佳。建议检查一下数据集是否存在标签分布不均衡的情况。模型问题：可能预训练模型Ro
训练集效果比验证集效果差自然语言处理语言模型
2022-06-15 15:37

回答 1 已采纳这种情况要么就是模型本身参数设置和结构的问题，要么就是数据集少了，一般不会出现训练集比测试集还差
使用resnet， inception3进行fine-tune出现训练集准确率很高但验证集很低的问题
2020-10-03 21:49

datayx的博客向AI转型的程序员都关注了这个号????????????机器学习AI算法工程公众号：datayx最近用keras跑基于resnet50，inception3的一些迁移学习的实验，遇...
请问一下，文本处理的时候，测试集出现训练集没有的标签，该怎么处理数据才合理？ python 自然语言处理
2021-11-02 19:12

回答 1 已采纳主要还是要看需求，才能判断这类数据是否有用，如果需求指定有这个类别，那就要合并，如果没有去掉也是没问题的。同时考虑到另一种情况，这类数据就是用来评判分类器在开放领域的能力，就是故意放一些没有训练过的类
深度学习模型:训练出来的F1值比准确率高，写正常吗深度学习神经网络自然语言处理
2023-04-03 17:11

回答 2 已采纳 准确率和F1值都是常用的模型性能指标，通常用于评估分类问题的性能。准确率是正确分类的样本数与总样本数之比，而F1值是模型预测精度和召回率的加权平均值。F1值的计算方式将模型的准确率和召回率同时考虑，因
NLP文本分类的本质是不是其实是找相似，对于要分类的句子，在训练集里找最相似的句子？自然语言处理
2021-07-21 09:27

回答 1 已采纳可以这么理解
python 训练集 测试集 验证集划分_如何正确使用机器学习中的训练集、验证集和测试集？...
2020-12-09 16:37

weixin_39859055的博客 训练集、验证集和测试集，林林总总的数据集合类型，到底该怎么选、怎么用？看过这篇教程后，你就能游刃有余地处理它们了。问题审稿的时候，不止一次，我遇到作者错误使用数据集合跑模型准确率，并和他人成果比较的...
NLP文本匹配问题的本质是不是对于要预测的句子，遍历候选句子从训练数据集里寻找最相似的pair？自然语言处理
2021-07-21 09:15

回答 1 已采纳可以这么理解
一般外呼场景都是8k采样率的录音，假设模型都一样，8k和16k不同采样率训练出的模型准确率会有差距吗？人工智能自然语言处理语音识别
2022-07-22 17:19

回答 2 已采纳理论上模型一样的情况下，16k采样率的数据天然比8k效果会更好，训练的模型效果也会更好。但是如果是将8k的录音上采到16k，在走同样的模型，那么就不一定会更好了。不过一般来说更大的采样率可以搭配更深的
有什么长文本多分类的数据集吗?要求英文 pytorch 深度学习自然语言处理
2022-03-07 18:58

回答 2 已采纳我网盘里有，30天权限，记得拿走链接: https://pan.baidu.com/s/1pkO8hTP5M_TS7ewEzskaVQ 提取码: phbn
【入门篇】如何正确使用机器学习中的训练集、验证集和测试集？
2021-08-22 15:12

征途黯然.的博客 训练集、验证集和测试集，林林总总的数据集合类型，到底该怎么选、怎么用？看过这篇教程后，你就能游刃有余地处理它们了。问题审稿的时候，不止一次，我遇到作者错误使用数据集合跑模型准确率，并和他人成果比较的...
LSTM的loss不断下降，但train和test的准确率始终在0.5左右 tensorflow 机器学习深度学习神经网络自然语言处理
2019-07-19 10:18

回答 3 已采纳 LSTM是用来做文本生成，做垃圾邮件识别似乎没有什么道理。你的loss用的可能是MSE，平方误差对于大的误差的减小比较敏感，但是对于最终的分类没有什么帮助，就导致acc没有什么变化loss一直下降
python 划分训练集 测试集 验证集_如何正确使用机器学习中的训练集、验证集和测试集？...
2021-02-09 09:20

千1100的博客 训练集、验证集和测试集，林林总总的数据集合类型，到底该怎么选、怎么用？看过这篇教程后，你就能游刃有余地处理它们了。1问题审稿的时候，不止一次，我遇到作者错误使用数据集合跑模型准确率，并和他人成果比较的...
如何正确使用机器学习中的训练集、验证集和测试集？
2019-07-03 07:16

nkwshuyi的博客王树义读完需要19分钟速读仅需7分钟训练集、验证集和测试集，林林总总的数据集合类型，到底该怎么选、怎么用？看过这篇教程后，你就能游刃有余地处理它们了。1 问题审稿的时...
没有解决我的问题, 去提问

悬赏问题

¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！

nlp 文本分类训练集和验证集准确率高，测试集准确率低的问题？

1条回答 默认 最新

悬赏问题

1条回答默认最新