total_loss正常但是val loss出现nan是怎么回事啊？

在修改了原网络的backbone，加入了注意力机制后，在训练过程中total_loss正常但是val loss出现nan是怎么回事啊

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Neo很努力 2022-07-08 16:02
关注
梯度下降的过程中因为中间网络层是随机生成的初始权重，所以梯度下降的过程中可能陷入了局部最优，可以通过调试batchsize或者lr等超参数解决。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

total_loss正常但是val loss出现nan是怎么回事啊？深度学习神经网络
2021-03-15 16:35

回答 1 已采纳梯度下降的过程中因为中间网络层是随机生成的初始权重，所以梯度下降的过程中可能陷入了局部最优，可以通过调试batchsize或者lr等超参数解决。
使用Keras编写的LSTM，训练时出现loss: nan - val_loss: nan，该如何调整？ keras lstm 有问必答深度学习
2022-05-03 18:40

回答 2 已采纳原数据第一列是时间形式的20220503这种，在读数据之后进行下面操作，你的数据是简单的1 2 34这种，数据可能在处理过程丢失或者变成nan了，你可以一步步看看每次处理后当前的数据现在是什么格式 d
keras model 训练 train_loss,train_acc再变，但是val_loss,val_test却一直不变，是哪里有问题？人工智能深度学习
2019-07-07 14:37

回答 2 已采纳说明你的样本太少，明显已经过拟合了。
keras使用yolov3训练自己的数据时出现- val_loss: nan
2022-02-13 02:03

硬光的博客先说方法，关闭加载预训练，在train.py进行如下修改，将load_pretrained 改为Fasle
YOLOV5-6.0obj_loss上升 python 人工智能深度学习
2022-04-07 22:15

回答 1 已采纳你用的预训练模型还是直接初始化的模型？看样子只能说你的数据集整体的loss比你用的预训练模型或者初始化模型高而已，整体是正常的就行
语义分割模型训练，发现验证集的loss值震荡，而精度却正常提升，这是怎么回事？？ python 人工智能机器学习深度学习神经网络
2020-03-09 08:35

回答 1 已采纳现象很正常啊，遇到陌生的数据损失肯定会高，loss肯定是在震荡但整体呈下降趋势的
如何在进行数据训练是报KeyError: 'val_mape？ keras tensorflow 神经网络
2023-01-02 06:19

回答 6 已采纳出现 KeyError: 'val_mape' 的原因可能是在代码中没有计算并输出 val_mape 这个指标。在训练模型时使用了 ModelCheckpoint 回调函数来保存模型权重，并使用了
训练loss不断下降看似快收敛，一到val_loss就nan上加nan
2021-03-11 21:34

某个早晨突然醒来的特困生的博客训练时loss一直很正常的在下降，但一到验证的时候val_loss就是loss，而且很奇妙的是我有两个输出标签，其中一个正常，另一个nan。于是开始了艰难的排查。首先网上搜了下，大致都是lr设置太大等等，但这一般影响的...
yolov5训练结果只有loss为0 python 机器学习深度学习
2022-10-13 20:50

回答 1 已采纳单个类别的时候，train里面要将single-cls设置为true，或者参数里面加上--single-cls
YOLO v5训练使用CPU正常，使用GPU训练 box cls obj均为nan pytorch 深度学习目标检测
2022-01-15 21:21

回答 2 已采纳解决了，既然锁定问题出在显卡上，在坚信不是硬件问题的前提下，只能一遍一遍换驱动版本。刚开始用的最早的驱动版本是11.3，pytorch支持的另一个cuda版本10.2 nvidia官网不支持wind
yolov5验证loss比训练loss大很多 python 深度学习目标检测
2022-06-22 10:51

回答 3 已采纳不是，你这个是class_loss一塌糊涂导致你的pr和map曲线也不行，但是你的obj和box是正常的，也就是说网络有找到目标，只不过目标在分类的时候分错了。首先考虑的应该是你的数据集情况。1.你的
训练网络loss出现Nan解决办法
2022-08-10 23:11

晓峰学长的博客 nan解决方法
可是最终用测试集验证模型却只有0.3的准确率，请问是怎么回事啊？ tensorflow 人工智能机器学习深度学习
2021-02-25 00:59

回答 4 已采纳模型的泛化能力不行，即训练集数据覆盖范围小了，并没有覆盖到大部分情况。举个例子来说，你训练的数据都是圆形的，你用来测试矩形，那肯定不行啊。
FasterRCNN训练时total Loss 出现 NaN，或者出现Pdb问题
2021-04-16 21:17

Angels don't sing的博客问题描述：FasterRCNN训练时total Loss 出现 NaN，或者出现Pdb问题“keep_inds = np.append(fg_inds, bg_inds) (Pdb) 问题解决方案：在文件夹\lib\datasets\下，将文件pascal_voc.py中函数_load_pascal_annotation...
【机器学习技巧】-训练过程中，loss参数出现NAN怎么解决？解决方案汇总？
2022-03-26 16:31

键盘即钢琴的博客深度神经网络在训练过程中，loss参数出现NAN怎么解决？解决方案？
深度模型 loss为nan解决方案详解
2022-03-21 19:20

bitcarmanlee的博客深度模型进行训练的时候，经常出现loss为nan的情况。比如某一次训练过程的输出如下： Epoch 1/50 1/303 [..............................] - ETA: 0s - loss: 278.5685 - accuracy: 0.0000e+00 47/303 [===>......
训练时候loss出现nan
2023-03-25 18:21

lanmy_dl的博客解决方式，调了lr也不是。最后发现是因为测试是每一个epoch的训练后，所以下一次训练之前要重新train(),也就是要把...如果是train完了再test那就无所谓。训练的loss出现nan，第一个epoch是正常的，后面的就开始nan了。
训练模型中出现loss连续为nan的解决办法
2020-04-25 22:21

灵跃115的博客 1、优先查看数据，数据中如果有空数据就会出现连续loss为nan，去除空白数据 data=data.dropna() 2、梯度爆炸减小学习率，减小batch_size 3、数据归一化 4、网络的结构化不合理，隐含层，神经元个数 5、更换...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月31日

悬赏问题

¥15 网络科学导论，网络控制
¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
¥15 无线连接树莓派，无法执行update，如何解决？（相关搜索：软件下载）

total_loss正常但是val loss出现nan是怎么回事啊？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新