tensorflow2.x 梯度带求导断流问题

大致思路如下：
模型A 预测输入 x 的标签 y_pred
模型B 根据输入的 y_pred 和真实标签y输出一个数值 z 作为模型A 的损失
根据z计算模型A的梯度，并更新模型A
更新的A重新预测 x 的标签记为 y_pred_new
此时计算 y_pred 和 y_pred_new 的交叉熵损失loss，更新模型B，但是在loss对模型B的求梯度时，梯度全为none

代码如下

ModelA(x)  #  param: θ ， 预测输入 x 的标签 y_pred
# 网络# 
return  y_pred
 
ModelB(y, y_pred)  # param: beta，根据输入的 y_pred 和真实标签y输出一个数值 z 作为模型A 的损失
# 网络 # 
return z  
 
with tf.GradientTape() as tape_1:
    with tf.GrandientTape() as tape:
        y_pred = ModelA(x)                                   
        z = ModelB(y, y_pred)                                
    grads = tape.gradient(z, ModelA.trainable_variables)
    optimizer.apply_gradients(zip(grads, ModelA.trainable_variables)   # 根据z计算模型A的梯度，并更新模型A 
    y_pred_new = ModelA(x)                                  # 更新的A重新预测 x 的标签记为y_pred_new
    loss = categorical_crossentropy(y, y_pred_new)        # 计算 y_pred 和 y_pred_new 的交叉熵损失loss，用以更新模型B
grads_1 = tape_1.gradient(loss, ModelB.trainable_variables)   #  ！！！！此处出现问题，梯度全为none
optimizer.apply_gradients(zip(grads_1, ModelB.trainable_variables)

公式过程如下图
推测问题在于③位置上的对θ更新时求导，因为grads=tape.gradient()求出来是tensor，相当于βx变成了tensor，不是variable了，导致⑤位置求导的时候无法对β求导，我该如何解决这个问题？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

tensorflow2.x 深度学习使用相同梯度进行梯度下降的两个相同神经网络，得到的结果却不同 tensorflow 深度学习神经网络
2021-03-12 00:07

回答 2 已采纳在上面给的代码的第164行处插入 optimizer = optimizers.Adam(lr=1e-4) 重新初始化optimizer，这样两个模型训练后的测试结果就一样了，望采纳
tensorflow中的.numpy()函数是啥 python tensorflow 机器学习
2022-09-22 14:57

回答 4 已采纳因为这里的loss是tensor，所以调用loss.numpy()将其转换为numpy数组。这里最主要的原因是loss_all一开始不是tensor类型，如果loss_all是tensor类型，则可以
用tensorflow做梯度下降 python tensorflow 机器学习
2022-09-22 09:25

回答 2 已采纳以使网络模型更快地输出优质的 one-hot 编码 ->这个说的更明显http://t.csdn.cn/DzXTX ，但总的意思就是为加快网络输出结果尽快向 one-hot 编码收敛需要做一个变
轻松上手TensorFlow 2.x：从张量操作到自定义层
2024-04-09 18:34

AI探长Kimbo的博客 TensorFlow 2.x凭借其易于使用的张量操作、动态图机制、自动求导功能、灵活的模型构建方式以及支持自定义层与损失函数等特性，为深度学习项目开发提供了强大支撑。本文旨在引领读者从张量操作入门，逐步进阶至自定义...
TensorFlow中的梯度下降函数的疑问 tensorflow
2017-12-19 17:17

回答 2 已采纳对平方差求导，指数项下来就是那个2
梯度下降算法、牛顿迭代算法的相关问题人工智能机器学习算法
2022-02-08 11:56

回答 2 已采纳这些知识属于工程数学原理的内容，具体分支是最优化理论，您可以参考相关教材。一般地，优化问题可以分为无约束优化和有约束优化，您提到的梯度法和牛顿法都属于无约束优化中的梯度类方法，此外无约束优化中还有非梯
用tensorflow做机器翻译时训练代码有问题 python tensorflow 神经网络
2019-05-27 16:45

回答 2 已采纳谢谢大家，已经解决了
tensorflow1.x代码转换到tensorflow2.x
2020-11-23 21:04

竹叶青lvye的博客 :] print(x_test1.shape) x_test1 = x_test1.reshape(28,28) print(x_test1.shape) plt.subplot(1,1,1) plt.imshow(x_test1, cmap='gray', interpolation='none') x_test1 = x_test1[np.newaxis, ..., np.newaxis] x...
关于机器学习梯度下降求 w 和 b 的问题人工智能机器学习深度学习
2020-02-22 14:04

回答 2 已采纳 fit函数里面的while循环里的第一个if语句是想判断当前求得的self.w的精度，如果self.w和b的改变小于precision即认为精度达到要求，退出循环！而第一次while循环时明显
tensorflow中神经网络优化器问题 tensorflow
2018-11-09 08:17

回答 1 已采纳梯度下降算法的优化器就是一种BP算法除了梯度下降（GD）或者随机梯度下降（SGD），还有很多别的BP算法，比如Adam、Adadelta、RMSprop，通称“优化器”，所谓优化器就是调整模型权重
图像的梯度提取 & 非参数估计方法拟合函数再求导 python 图像处理机器学习
2022-07-06 21:17

回答 1 已采纳差分就是离散化的微分。连续函数的微分求导，离散后就是差分。微分方程的数值解法，就是差分方程。（1）图像是离散的点，图像表达为二维矩阵，图像梯度可以把图像看成二维离散函数，图像梯度其实就是这个二维离散函
TensorFlow 1.x 2.x教程大集合
2022-02-11 14:39

qazwsxpy的博客 TensorFlow2.x基础语法使用【TensorFlow2.x系列第3篇】构造机器学习模型的步骤【TensorFlow2.x系列第4篇】深度学习中的激活函数 TensorFlow实践 TensorFlow实践（1）——开启一个新世界 TensorFlow实践（2）——...
生成式对抗网络中梯度消失的问题
2017-10-19 07:38

回答 1 已采纳请搜索关于wgan的内容，自然会明白
基于Tensorflow2.x低阶API搭建神经网络模型并训练及解决梯度爆炸与消失方法实践
2022-09-27 16:14

肖永威的博客 Python Tensorflow1.x升级到2.x，使用低阶API，以继承tf.module类的方法搭建神经网络模型，并训练，以及解决梯度爆炸与消失方法的实践。
基于TensorFlow2.x框架开发机器学习
2020-09-02 01:27

一颗小树x的博客有TensorFlow2.x那应该有TensorFlow1.x 的版本的，它们的主要区别是什么呢，有什么亮点吗？目录前言一、机器学习、神经网络简单介绍 1）机器学习简介 2）解决机器学习问题的步骤 3）神经网络剖析 4）训练...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月5日

悬赏问题

¥20 指导如何跑通以下两个Github代码
¥15 大家知道这个后备文件怎么删吗，为啥这些文件我只看到一份，没有后备呀
¥15 C++为什么这个代码没报错运行不出来啊
¥15 一道ban了很多东西的pyjail题
¥15 关于#r语言#的问题：如何将生成的四幅图排在一起，且对变量的赋值进行更改，让组合的图漂亮、美观@（相关搜索：森林图）
¥15 C++识别堆叠物体异常
¥15 微软硬件驱动认证账号申请
¥15 GPT写作提示指令词
¥20 根据动态演化博弈支付矩阵完成复制动态方程求解和演化相图分析等
¥15 华为超融合部署环境下RedHat虚拟机分区扩容问题

tensorflow2.x 梯度带求导断流问题

0条回答 默认 最新

问题事件

悬赏问题

0条回答默认最新