梯度计算为None，为什么啊？

编写如下代码实现MNIST分类的神经网络的训练：

import tensorflow as tf
print(tf.__version__)


batch_size = 128
mnist = tf.keras.datasets.mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()

x_train = tf.data.Dataset.from_tensor_slices(
        x_train).batch(batch_size)
y_train = tf.data.Dataset.from_tensor_slices(
        y_train).batch(batch_size)

classifier = tf.keras.models.Sequential([
    tf.keras.layers.Flatten(input_shape=[28, 28]),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.Dense(10, activation='softmax')
])

# 编译
# model.compile(optimizer='adam',
            #   loss='sparse_categorical_crossentropy',
            #   metrics=['accuracy'])
# 训练模型
# model.fit(x_train, y_train, epochs=5, batch_size=64)

# 基于上述代码改写一下啊 上面代码不报错的
cla_loss = tf.keras.metrics.SparseCategoricalCrossentropy()

learning_rate = 1e-4
cla_opt = tf.keras.optimizers.Adam(learning_rate)

for batch_x, batch_y in zip(x_train, y_train):
    with tf.GradientTape() as tape:
        pred_lable = classifier(batch_x)
        loss = cla_loss(batch_y, pred_lable)

        print('loss:', loss)

    gradients = tape.gradient(loss, classifier.trainable_variables)
    print('gradients:', gradients)
    cla_opt.apply_gradients(zip(gradients, classifier.trainable_variables))

报错如下：

gradients: [None, None, None, None]
Traceback (most recent call last):
  File "/home//文档/CAE/text_a.py", line 43, in <module>
    cla_opt.apply_gradients(zip(gradients, classifier.trainable_variables))
  File "/home//.local/lib/python3.8/site-packages/keras/optimizer_v2/optimizer_v2.py", line 633, in apply_gradients
    grads_and_vars = optimizer_utils.filter_empty_gradients(grads_and_vars)
  File "/home//.local/lib/python3.8/site-packages/keras/optimizer_v2/utils.py", line 73, in filter_empty_gradients
    raise ValueError(f"No gradients provided for any variable: {variable}. "
ValueError: No gradients provided for any variable: (['dense/kernel:0', 'dense/bias:0', 'dense_1/kernel:0', 'dense_1/bias:0'],).

为什么计算的梯度为None？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
FriendshipT 2022-09-16 14:24
关注
可能梯度爆炸了吧。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Mnist两层神经网络梯度一直为零 python 神经网络
2022-08-03 19:10

回答 2 已采纳导包的代码我省略了，里面主要修改的是数据需要归一化、权重系统weight_init_std=0.01修改为了1、学习率降低(修改为0.05)。如果想做的更好一些，可以增加dropout # 显示图形
matlab中用canny获得的梯度图为logical类型的二维矩阵的图，乘一个彩色图的话，应该怎么转换操作呢？ matlab 图像处理计算机视觉
2023-02-09 00:28

回答 2 已采纳此回答引用ChatGPT有用请采纳：在 MATLAB 中，如果想在使用 Canny 算法获得的梯度图（logical 类型的二维矩阵）上乘一个彩色图，需要进行如下操作：先将梯度图转换为 double
python如何实现绘制光流梯度直方图HOF python 深度学习计算机视觉
2022-12-31 21:52

回答 2 已采纳这就是梯度方向直方图 HOG，用 Numpy 可以实现，用 OpenCV 也可以。可以参考：【OpenCV 例程 300篇】248. 特征描述之HOG描述符 (https://blog.csdn.ne
如何训练一个语言模型？
2023-08-08 01:45

禅与计算机程序设计艺术的博客使用语言模型可以帮助人们更准确地理解文本、做出决策，并为机器翻译、问答系统等自然语言处理任务提供参考。语言模型本质上是一个概率模型，它基于大量的已有文本数据来估计某种语言生成文本的概率。
matlab中，图片char类型怎么转换为double类型？ matlab 图像处理
2023-02-12 23:05

回答 2 已采纳可以创建一个double型矩阵canny_double，然后cannyBW中的像素值循环转为double，然后给canny_double，如下面这样
python K210颜色梯度识别 opencv python 计算机视觉
2022-02-24 15:54

回答 1 已采纳原理上是可以的，实际上精度不一定高，原因是实际使用时用于图像获取条件（拍照设备、光源、信号转换）的限制，识别精度不一定高。以灰度图像为例，也就是说，你做的识别模型，以灰度数字图像测试可能很好——其实这
自定义神经网络保存为h5文件 keras python tensorflow
2023-04-16 13:40

回答 2 已采纳努力の小熊结合了最新版本ChatGPT4.0的回答：将自定义神经网络模型保存为h5文件在这种情况下可能不是最佳选择，因为h5文件存储对于具有自定义层和训练逻辑的模型可能不适用。不过，你可以使用 Ten
如何训练一个 BERT 深度学习语言模型?
2023-09-11 01:14

禅与计算机程序设计艺术的博客本文作者是资深人工智能专家、资深程序员和软件架构师，他主要从事机器学习、深度学习以及自然语言处理领域的研究工作。近年来由于在自然语言处理、机器学习和图像识别等领域的突破性进展，人们越来越重视对人类语言...
生成式对抗网络中梯度消失的问题
2017-10-19 07:38

回答 1 已采纳请搜索关于wgan的内容，自然会明白
视觉SLAM十四讲ch6 c++ 开发语言计算机视觉
2023-01-17 12:07

回答 3 已采纳看错误是g2o的依赖问题，检查下是否正确安装，在makelist中的依赖引入写法是否正确等。
准大一新手，想问大学应该按照什么梯度学习其他开发语言
2021-08-13 00:53

回答 1 已采纳全国计算机二级证书？软考证书啥的先了解一下？如何学就不知道咋说了，老师咋教跟着学或者自己找资料，找oj平台练算法？准大一的话感觉也先了解行业了解方向PAT Leetcode刷题以及争取打ACM之类？
大数据到底是什么意思？
2023-08-11 02:15

禅与计算机程序设计艺术的博客梯度下降法的特点是速度快，迭代周期短，但是每次迭代都需要计算损失函数的梯度，可能导致陷入局部最小值。 3.4 EM算法 EM算法（Expectation-Maximization algorithm，期望最大算法）是一种聚类算法，它可以解决含有...
深度学习有关梯度的问题 python 机器学习深度学习
2022-08-02 19:28

回答 2 已采纳没啥问题，在你 a 的初值为 a = 0.0827 的情况下，d 最终为可以表达为 d = (2^14) * a = 16384 * a，所以 d 关于 a 的偏导数为 dd/da = 16384，属
为什么需要Python环境以及如何使用Conda对其进行管理
2020-08-07 09:53

cumi6497的博客 you can also use it for R (a programming language for statistical computing) 多用途：它不仅用于管理Python环境和软件包，还可以用于R(一种用于统计计算的编程语言) At the time of writing this article, I ...
如何使用Nesterov加速梯度下降实现高效深度学习模型
2023-07-19 01:08

禅与计算机程序设计艺术的博客作者：禅与计算机程序设计艺术深度学习（Deep Learning）是一个基于神经网络的机器学习方法，它可以...其中一种较为有效的方法就是采用Nesterov加速梯度下降（NAG）算法。本文将会详细阐述其原理、算法及其具体应用
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月14日

悬赏问题

¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 保护模式-系统加载-段寄存器
¥15 电脑桌面设定一个区域禁止鼠标操作
¥15 求NPF226060磁芯的详细资料

梯度计算为None，为什么啊？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新