使用 tensorflow 训练网络 loss 突然出现 nan 的情况[已解决]

在第167次epoch时模型loss突然变为nan，之前情况都是正常的，之后模型 loss 便一直为 nan，两个准确率变为 1 和 0。
尝试把学习率改为0或0.0000001，nan还是会在167次epoch出现。
尝试把loss改为loss = tf.log(tf.clip _ by _ value(y,1e-8,1.0)) 或 loss = tf.log(tf.cli _ p _ by _ value(y,1e-8,tf.reducemax(y)))，nan还是会在167次epoch出现。
把softmax函数，改为log _ softmax函数，nan还是会在167次epoch出现。
把batch _ size改大五倍（从20改为100），nan会在33次epoch出现。
各位大佬们，谁能救救我啊，这是因为什么原因呢？？？调试了一星期了（悲伤）

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2018-06-14 12:09
关注
看下是不是梯度爆炸或者消失了，加上正则化或者随机化，或者逐层训练你的模型。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

tensorflow训练神经网络时出现loss一直为nan的情况
2022-08-12 17:04

xiaoxixi！的博客 tensorflow训练时出现loss一直为nan的问题
【踩坑大全】TensorFlow的Loss出现Nan原因分析及解决方案
2024-12-02 03:25

蚊子我们绝交吧的博客 TensorFlow出现Nan原因及解决方案
训练神经网络出现nan
2024-10-08 17:20

崧小果的博客 2.如果当前的网络是类似于RNN的循环神经网络的话，出现NaN可能是因为梯度爆炸的原因，一个有效的方式是增加“gradient clipping”（梯度截断来解决）_pytorch nan。其实不然，在训练的时候我们依然可以通过大量的...
卷积神经网络中loss值为nan的问题（已解决）
2018-09-04 12:20

喵嗷的博客卷积神经网络中loss值为nan的问题最近一直在学习AI方面的东西。想自己搞一个类似MINST的东东，用搞基神经网络，样本用自制的样本……然鹅理想是骨感的，现实是永远吃不上饭的。经过与各种错误轮战后，出现了更大...
应对AI训练中的“NaN Loss”问题：原因分析与解决方案
2024-07-21 08:30

默语佬的博客在AI模型训练中，很多开发者会遇到“NaN Loss”问题，这不仅会导致训练失败，还可能影响模型的性能。本文将详细分析“NaN Loss”的成因，提供具体的解决方法，并通过代码案例演示如何避免和解决这一问题。希望这些...
tensorflow训练模型出现nan
2021-02-20 20:01

千寻～的博客错误的原因是计算auc的过程中偶尔出现 InvalidArgumentError (see above for traceback): assertion failed: [predictions must be in [0, 1]]，也就是predictions中出现了[0，1] 区间之外的值。注：predictions...
tensorflow训练数据 loss一直在变，但accuracy: 0.0000e+00
2022-03-13 23:51

Loutre_star的博客 loss值没问题，但accuracy: 0.0000e+00，可能是判断标准metrics设置不对。
TensorFlow出现Found Inf or NaN global norm的排查和解决办法
2020-05-29 00:42

pengwill97的博客在训练神经网络的时候，由于一些原因会出现NaN或者Inf，致使训练终止。在查阅相关资料之后，并且结合我出现的问题，做了一些总结。出现的代码在TensorFlow 1.12.2版本可正常执行。出现问题的原因出现NaN或者Inf的...
tensorflow使用详解
2025-04-28 00:15

有梦想的攻城狮的博客可在Java生态中高效实现TensorFlow模型部署。持续关注TensorFlow官方文档（https://www.tensorflow.org）获取最新API更新。支持版本：TensorFlow Java API 支持 TF v1.x 和 v2.x（推荐2.10+）Eager Execution：即时...
AI人工智能领域TensorFlow的模型训练策略
2025-07-02 14:45

AIGC应用创新大全的博客 TensorFlow：Google开发的开源机器学习框架，用于构建和训练深度学习模型模型训练：通过数据调整模型参数，使其能够做出准确预测的过程神经网络：模仿人脑神经元连接方式的计算模型，由多个层次组成。
没有解决我的问题, 去提问

使用 tensorflow 训练网络 loss 突然出现 nan 的情况[已解决]

3条回答 默认 最新

3条回答默认最新