total_loss正常但是val loss出现nan是怎么回事啊？

在修改了原网络的backbone，加入了注意力机制后，在训练过程中total_loss正常但是val loss出现nan是怎么回事啊

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Neo很努力 2022-07-08 16:02
关注
梯度下降的过程中因为中间网络层是随机生成的初始权重，所以梯度下降的过程中可能陷入了局部最优，可以通过调试batchsize或者lr等超参数解决。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

total_loss正常但是val loss出现nan是怎么回事啊？深度学习神经网络
2021-03-15 16:35

回答 1 已采纳梯度下降的过程中因为中间网络层是随机生成的初始权重，所以梯度下降的过程中可能陷入了局部最优，可以通过调试batchsize或者lr等超参数解决。
使用Keras编写的LSTM，训练时出现loss: nan - val_loss: nan，该如何调整？ keras lstm 有问必答深度学习
2022-05-03 18:40

回答 2 已采纳原数据第一列是时间形式的20220503这种，在读数据之后进行下面操作，你的数据是简单的1 2 34这种，数据可能在处理过程丢失或者变成nan了，你可以一步步看看每次处理后当前的数据现在是什么格式 d
keras model 训练 train_loss,train_acc再变，但是val_loss,val_test却一直不变，是哪里有问题？人工智能深度学习
2019-07-07 14:37

回答 2 已采纳说明你的样本太少，明显已经过拟合了。
keras使用yolov3训练自己的数据时出现- val_loss: nan
2022-02-13 02:03

硬光的博客先说方法，关闭加载预训练，在train.py进行如下修改，将load_pretrained 改为Fasle
YOLOV5-6.0obj_loss上升 python 人工智能深度学习
2022-04-07 22:15

回答 1 已采纳你用的预训练模型还是直接初始化的模型？看样子只能说你的数据集整体的loss比你用的预训练模型或者初始化模型高而已，整体是正常的就行
语义分割模型训练，发现验证集的loss值震荡，而精度却正常提升，这是怎么回事？？ python 人工智能机器学习深度学习神经网络
2020-03-09 08:35

回答 1 已采纳现象很正常啊，遇到陌生的数据损失肯定会高，loss肯定是在震荡但整体呈下降趋势的
如何在进行数据训练是报KeyError: 'val_mape？ keras tensorflow 神经网络
2023-01-02 06:19

回答 6 已采纳出现 KeyError: 'val_mape' 的原因可能是在代码中没有计算并输出 val_mape 这个指标。在训练模型时使用了 ModelCheckpoint 回调函数来保存模型权重，并使用了
训练loss不断下降看似快收敛，一到val_loss就nan上加nan
2021-03-11 21:34

某个早晨突然醒来的特困生的博客训练时loss一直很正常的在下降，但一到验证的时候val_loss就是loss，而且很奇妙的是我有两个输出标签，其中一个正常，另一个nan。于是开始了艰难的排查。首先网上搜了下，大致都是lr设置太大等等，但这一般影响的...
YOLO v5训练使用CPU正常，使用GPU训练 box cls obj均为nan pytorch 深度学习目标检测
2022-01-15 21:21

回答 2 已采纳解决了，既然锁定问题出在显卡上，在坚信不是硬件问题的前提下，只能一遍一遍换驱动版本。刚开始用的最早的驱动版本是11.3，pytorch支持的另一个cuda版本10.2 nvidia官网不支持wind
yolov5训练结果只有loss为0 python 机器学习深度学习
2022-10-13 20:50

回答 1 已采纳单个类别的时候，train里面要将single-cls设置为true，或者参数里面加上--single-cls
yolov5验证loss比训练loss大很多 python 深度学习目标检测
2022-06-22 10:51

回答 3 已采纳不是，你这个是class_loss一塌糊涂导致你的pr和map曲线也不行，但是你的obj和box是正常的，也就是说网络有找到目标，只不过目标在分类的时候分错了。首先考虑的应该是你的数据集情况。1.你的
训练网络loss出现Nan解决办法
2022-08-10 23:11

晓峰学长的博客 nan解决方法
可是最终用测试集验证模型却只有0.3的准确率，请问是怎么回事啊？ tensorflow 人工智能机器学习深度学习
2021-02-25 00:59

回答 4 已采纳模型的泛化能力不行，即训练集数据覆盖范围小了，并没有覆盖到大部分情况。举个例子来说，你训练的数据都是圆形的，你用来测试矩形，那肯定不行啊。
深度模型 loss为nan解决方案详解
2022-03-21 19:20

bitcarmanlee的博客深度模型进行训练的时候，经常出现loss为nan的情况。比如某一次训练过程的输出如下： Epoch 1/50 1/303 [..............................] - ETA: 0s - loss: 278.5685 - accuracy: 0.0000e+00 47/303 [===>......
【机器学习技巧】-训练过程中，loss参数出现NAN怎么解决？解决方案汇总？
2022-03-26 16:31

键盘即钢琴的博客深度神经网络在训练过程中，loss参数出现NAN怎么解决？解决方案？
tensorflow训练神经网络时出现loss一直为nan的情况
2022-08-12 17:04

xiaoxixi！的博客 tensorflow训练时出现loss一直为nan的问题
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月31日

悬赏问题

¥20 机器学习能否像多层线性模型一样处理嵌套数据
¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效

total_loss正常但是val loss出现nan是怎么回事啊？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新