使用 tensorflow 训练网络 loss 突然出现 nan 的情况[已解决]

在第167次epoch时模型loss突然变为nan，之前情况都是正常的，之后模型 loss 便一直为 nan，两个准确率变为 1 和 0。
尝试把学习率改为0或0.0000001，nan还是会在167次epoch出现。
尝试把loss改为loss = tf.log(tf.clip _ by _ value(y,1e-8,1.0)) 或 loss = tf.log(tf.cli _ p _ by _ value(y,1e-8,tf.reducemax(y)))，nan还是会在167次epoch出现。
把softmax函数，改为log _ softmax函数，nan还是会在167次epoch出现。
把batch _ size改大五倍（从20改为100），nan会在33次epoch出现。
各位大佬们，谁能救救我啊，这是因为什么原因呢？？？调试了一星期了（悲伤）

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2018-06-14 12:09
关注
看下是不是梯度爆炸或者消失了，加上正则化或者随机化，或者逐层训练你的模型。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

使用Keras编写的LSTM，训练时出现loss: nan - val_loss: nan，该如何调整？ keras lstm 有问必答深度学习
2022-05-03 18:40

回答 2 已采纳原数据第一列是时间形式的20220503这种，在读数据之后进行下面操作，你的数据是简单的1 2 34这种，数据可能在处理过程丢失或者变成nan了，你可以一步步看看每次处理后当前的数据现在是什么格式 d
tensorflow自定义的损失函数 focal_loss出现inf，在训练过程中出现inf tensorflow 深度学习神经网络
2019-05-05 14:51

回答 1 已采纳解决方法 ``` def focal_loss_calc(alpha=0.25, gamma=2., epsilon=1e-6): """ focal loss used for tra
total_loss正常但是val loss出现nan是怎么回事啊？深度学习神经网络
2021-03-15 16:35

回答 1 已采纳梯度下降的过程中因为中间网络层是随机生成的初始权重，所以梯度下降的过程中可能陷入了局部最优，可以通过调试batchsize或者lr等超参数解决。
tensorflow训练神经网络时出现loss一直为nan的情况
2022-08-12 17:04

xiaoxixi！的博客 tensorflow训练时出现loss一直为nan的问题
跑yolov5出现 nan 人工智能深度学习
2022-04-02 19:40

回答 6 已采纳这可能是PyTorch在其他一些问题中提到的Windows/conda/CUDA11错误，在这种情况下，降级到CUDA 10可以解决这个问题。或者，您的数据集标签可能存在一些问题。
yolov5训练损失为Nan python
2022-08-12 13:39

回答 1 已采纳将学习率改为0.00001，步子太大，扯到蛋了，改小点
tensorflow.keras训练模型预测问题 keras python tensorflow
2023-03-04 11:08

回答 2 已采纳这种情况可能是由于模型在训练过程中出现了过拟合的现象。过拟合通常是指模型在训练集上表现很好，但在测试集上表现不佳的情况。在训练过程中，模型过度适应了训练集的噪声和特定的样本，从而导致了 val_los
卷积神经网络中loss值为nan的问题（已解决）
2018-09-04 12:20

喵嗷的博客卷积神经网络中loss值为nan的问题最近一直在学习AI方面的东西。想自己搞一个类似MINST的东东，用搞基神经网络，样本用自制的样本……然鹅理想是骨感的，现实是永远吃不上饭的。经过与各种错误轮战后，出现了更大...
keras训练二分类模型acc一直0.5 loss一直是0.69怎么办? tensorflow 人工智能深度学习
2021-03-18 16:11

回答 2 已采纳帮你改了下代码，路径你自己再改改，验证集acc能跑到0.8以上了。 import os import tensorflow as tf from tensorflow.keras import S
tensorflow 中怎么查看训练好的模型的参数呢？ tensorflow 神经网络
2018-09-18 03:37

回答 2 已采纳 https://blog.csdn.net/zwwhsxq/article/details/80525016 https://blog.csdn.net/AManFromEarth/article/
cuda报错，程序不训练，acc不增长，loss为Nan python tensorflow windows
2023-04-18 11:32

回答 3 已采纳 30系显卡要求11.0以上的cuda，推荐11.7
tensorflow训练模型出现nan
2021-02-20 20:01

千寻～的博客错误的原因是计算auc的过程中偶尔出现 InvalidArgumentError (see above for traceback): assertion failed: [predictions must be in [0, 1]]，也就是predictions中出现了[0，1] 区间之外的值。注：predictions...
YOLO v5训练使用CPU正常，使用GPU训练 box cls obj均为nan pytorch 深度学习目标检测
2022-01-15 21:21

回答 2 已采纳解决了，既然锁定问题出在显卡上，在坚信不是硬件问题的前提下，只能一遍一遍换驱动版本。刚开始用的最早的驱动版本是11.3，pytorch支持的另一个cuda版本10.2 nvidia官网不支持wind
tensorflow训练数据 loss一直在变，但accuracy: 0.0000e+00
2022-03-13 23:51

Loutre_star的博客 loss值没问题，但accuracy: 0.0000e+00，可能是判断标准metrics设置不对。
TensorFlow出现Found Inf or NaN global norm的排查和解决办法
2020-05-29 00:42

pengwill97的博客在训练神经网络的时候，由于一些原因会出现NaN或者Inf，致使训练终止。在查阅相关资料之后，并且结合我出现的问题，做了一些总结。出现的代码在TensorFlow 1.12.2版本可正常执行。出现问题的原因出现NaN或者Inf的...
没有解决我的问题, 去提问

悬赏问题

¥15 程序不包含适用于入口点的静态Main方法
¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记