在修改了原网络的backbone,加入了注意力机制后,在训练过程中total_loss正常但是val loss出现nan是怎么回事啊
关注
码龄 粉丝数 原力等级 --
- 被采纳
- 被点赞
- 采纳率

已结题
total_loss正常但是val loss出现nan是怎么回事啊?
收起
- 写回答
- 好问题 0 提建议
- 关注问题
微信扫一扫
点击复制链接分享
- 邀请回答
- 编辑 收藏 删除
- 收藏 举报
1条回答 默认 最新
- 关注
码龄 粉丝数 原力等级 --
- 被采纳
- 被点赞
- 采纳率
Neo很努力 2022-07-08 16:02关注梯度下降的过程中因为中间网络层是随机生成的初始权重,所以梯度下降的过程中可能陷入了局部最优,可以通过调试batchsize或者lr等超参数解决。
本回答被题主选为最佳回答 , 对您是否有帮助呢? 本回答被专家选为最佳回答 , 对您是否有帮助呢? 本回答被题主和专家选为最佳回答 , 对您是否有帮助呢?解决 1无用举报微信扫一扫
点击复制链接分享
评论按下Enter换行,Ctrl+Enter发表内容
报告相同问题?
提交
- 2022-05-03 18:40回答 2 已采纳 原数据第一列是时间形式的20220503这种,在读数据之后进行下面操作,你的数据是简单的1 2 34这种,数据可能在处理过程丢失或者变成nan了,你可以一步步看看每次处理后当前的数据现在是什么格式 d
- 回答 2 已采纳 说明你的样本太少,明显已经过拟合了。
- 2022-04-07 22:15回答 1 已采纳 你用的预训练模型还是直接初始化的模型?看样子只能说你的数据集整体的loss比你用的预训练模型或者初始化模型高而已,整体是正常的就行
- 2022-02-13 02:03硬光的博客 先说方法,关闭加载预训练,在train.py进行如下修改,将load_pretrained 改为Fasle
- 回答 1 已采纳 现象很正常啊,遇到陌生的数据损失肯定会高,loss肯定是在震荡但整体呈下降趋势的
- 2023-01-02 06:19回答 6 已采纳 出现 KeyError: 'val_mape' 的原因可能是在代码中没有计算并输出 val_mape 这个指标。 在训练模型时使用了 ModelCheckpoint 回调函数来保存模型权重,并使用了
- 2022-10-13 20:50回答 1 已采纳 单个类别的时候,train里面要将single-cls设置为true,或者参数里面加上--single-cls
- 2021-03-11 21:34某个早晨突然醒来的特困生的博客 训练时loss一直很正常的在下降,但一到验证的时候val_loss就是loss,而且很奇妙的是我有两个输出标签,其中一个正常,另一个nan。 于是开始了艰难的排查。 首先网上搜了下,大致都是lr设置太大等等,但这一般影响的...
- 2022-01-15 21:21回答 2 已采纳 解决了,既然锁定问题出在显卡上,在坚信不是硬件问题的前提下,只能一遍一遍换驱动版本。 刚开始用的最早的驱动版本是11.3,pytorch支持的另一个cuda版本10.2 nvidia官网不支持wind
- 2022-06-22 10:51回答 3 已采纳 不是,你这个是class_loss一塌糊涂导致你的pr和map曲线也不行,但是你的obj和box是正常的,也就是说网络有找到目标,只不过目标在分类的时候分错了。首先考虑的应该是你的数据集情况。1.你的
- 2021-02-25 00:59回答 4 已采纳 模型的泛化能力不行,即训练集数据覆盖范围小了,并没有覆盖到大部分情况。举个例子来说,你训练的数据都是圆形的,你用来测试矩形,那肯定不行啊。
- 2022-08-10 23:11晓峰学长的博客 nan解决方法
- 2021-04-16 21:17Angels don't sing的博客 问题描述:FasterRCNN训练时total Loss 出现 NaN,或者出现Pdb问题“keep_inds = np.append(fg_inds, bg_inds) (Pdb) 问题解决方案: 在文件夹\lib\datasets\下,将文件pascal_voc.py中函数_load_pascal_annotation...
- 2022-03-26 16:31键盘即钢琴的博客 深度神经网络在训练过程中,loss参数出现NAN怎么解决?解决方案?
- 2021-01-02 07:47顾一宸的博客 </p><p>画红线的地方就是我们刚刚.pth模型文件的路径,./default不能变,因为还要根据这个软链节名pytorch-faster-rcnn/output/res101/voc_2007_trainval+voc_2012_trainval/default 找到咱们模型所在的路径。...
- 2022-03-21 19:20bitcarmanlee的博客 深度模型进行训练的时候,经常出现loss为nan的情况。比如某一次训练过程的输出如下: Epoch 1/50 1/303 [..............................] - ETA: 0s - loss: 278.5685 - accuracy: 0.0000e+00 47/303 [===>......
- 2023-03-25 18:21lanmy_dl的博客 解决方式,调了lr也不是。最后发现是因为测试是每一个epoch的训练后,所以下一次训练之前要重新train(),也就是要把...如果是train完了再test那就无所谓。训练的loss出现nan,第一个epoch是正常的,后面的就开始nan了。
- 2022-12-08 15:54Pochacc_ZZ的博客 问题分析:nan代表无穷大或者非数值,一般在分母为0或log(0)出现。解决方案:给0值加上一个极小的数。
- 没有解决我的问题, 去提问