optim.compute_gradients计算梯度 ,为什么返回的第一列为None?

1.问题描述
模型通过keras.models.Sequential构建
loss => tf.losses.sparse_softmax_cross_entropy
通过 var_list=tf.trainable_variables() 获取可训练变量
计算梯度值：
loss_op = tf.losses.sparse_softmax_cross_entropy(y, y_pred)
grads_vars = optim.compute_gradients(loss_op, tf.trainable_variables())
grads_vars返回的第一元素为 None,导致面的程序异常。

 为什么grads_vars第一列返回的元素为None?

2.相关代码

import tensorflow as tf
import numpy as np
import time
import keras

# 加载数据集
x_dataset=np.random.rand(1000,28,28,1)
y_dataset=np.random.randint(0,10,size=(1000,))
act = tf.nn.leaky_relu

epoch = 200
batch_size = 5000
n_batch = len(x_dataset) // batch_size

# 把 batch 分成多少个 sub batch 来计算
subdivisions = 50
subdivisions_batch_size = int(np.ceil(batch_size / subdivisions))

# 是否使用 sub batch 方法，设置为 False 代表使用默认方法
is_on_subdivisions = True
def get_model(is_train=True, reuse=False):
    with tf.variable_scope('model', reuse=reuse):
        net = keras.models.Sequential()
        net.add(keras.layers.Conv2D(128,(3,3),input_shape=(28,28,1),strides=(2,2),padding='same',name='c1'))
        net.add(keras.layers.GlobalAveragePooling2D())
        net.add(keras.layers.Dense(10))
    return net


x = tf.placeholder(tf.float32, [None, 28, 28, 1])
y = tf.placeholder(tf.int32, [None,])

net = get_model()
y_pred=tf.cast(tf.argmax(net.outputs[0],axis=-1),dtype=tf.float32)
loss_op = tf.losses.sparse_softmax_cross_entropy(y, y_pred)
optim = tf.train.AdamOptimizer(0.01)
var_list=tf.trainable_variables()
grads_vars = optim.compute_gradients(loss_op, tf.trainable_variables())
#grads_vars返回的第一列为None,为什么？
for gv in grads_vars:
    print(gv)
# 删掉没梯度的参数, 倒序删除，减少麻烦
for i in range(len(grads_vars))[::-1]:
    if grads_vars[i][0] is None:
        del grads_vars[i]
#因为返回的第一列为None，所以所有变量都被删除了，导致后面的异常！        
print('len(grads_vars):',len(grads_vars))

# 生成梯度缓存：grads_vars第一列为None触发异常
grads_cache = [tf.Variable(np.zeros(t[0].shape.as_list(), np.float32), trainable=False) for t in grads_vars]

# 清空梯度缓存op，每一 batch 开始前调用
clear_grads_cache_op = tf.group([gc.assign(tf.zeros_like(gc)) for gc in grads_cache])

# 累积梯度op，累积每个 sub batch 的梯度
accumulate_grad_op = tf.group([gc.assign_add(gv[0]) for gc, gv in zip(grads_cache, grads_vars)])

# 求平均梯度，
mean_grad = [gc/tf.to_float(subdivisions) for gc in grads_cache]

# 组装梯度列表
new_grads_vars = [(g, gv[1]) for g, gv in zip(mean_grad, grads_vars)]

# 应用梯度op，累积完所有 sub batch 的梯度后，应用梯度
apply_grad_op = optim.apply_gradients(new_grads_vars)


# 原来的 optim ，跟上面做对照
ori_optim_op = tf.train.AdamOptimizer(0.01).minimize(loss_op, var_list=net.all_params)

config = tf.ConfigProto()
config.gpu_options.allow_growth = True
config.allow_soft_placement = True
sess = tf.Session(config=config)
sess.run(tf.global_variables_initializer())


for e in range(epoch):
    loss_sum = 0
    for b in progressbar(range(n_batch)):
        x_batch = x_dataset[b * batch_size: (b + 1) * batch_size]
        y_batch = y_dataset[b * batch_size: (b + 1) * batch_size]

        if is_on_subdivisions:
            # 每一批开始前需要清空梯度缓存
            sess.run(clear_grads_cache_op)

            sub_loss_sum = 0
            for s in range(subdivisions):
                x_sub_batch = x_batch[s * subdivisions_batch_size: (s + 1) * subdivisions_batch_size]
                y_sub_batch = y_batch[s * subdivisions_batch_size: (s + 1) * subdivisions_batch_size]
                if len(x_sub_batch) == 0:
                    break
                feed_dict = {x: x_sub_batch, y: y_sub_batch}
                _, los = sess.run([accumulate_grad_op, loss_op], feed_dict)
                sub_loss_sum += los
            loss_sum += sub_loss_sum / subdivisions

            # 梯度累积完成，开始应用梯度
            sess.run(apply_grad_op)
            # 本批次结束
        else:
            feed_dict = {x: x_batch, y: y_batch}
            _, los = sess.run([ori_optim_op, loss_op], feed_dict)
            loss_sum += los
    time.sleep(0.2)
    print('loss', loss_sum / n_batch)

3.报错信息

grads_vars:
(None, <tf.Variable 'model/c1/kernel:0' shape=(3, 3, 1, 128) dtype=float32_ref>)
(None, <tf.Variable 'model/c1/bias:0' shape=(128,) dtype=float32_ref>)
(None, <tf.Variable 'model/dense_1/kernel:0' shape=(128, 10) dtype=float32_ref>)
(None, <tf.Variable 'model/dense_1/bias:0' shape=(10,) dtype=float32_ref>)
(None, <tf.Variable 'model_1/c1/kernel:0' shape=(3, 3, 1, 128) dtype=float32_ref>)
(None, <tf.Variable 'model_1/c1/bias:0' shape=(128,) dtype=float32_ref>)
(None, <tf.Variable 'model_1/dense_2/kernel:0' shape=(128, 10) dtype=float32_ref>)
(None, <tf.Variable 'model_1/dense_2/bias:0' shape=(10,) dtype=float32_ref>)
(None, <tf.Variable 'model_2/c1/kernel:0' shape=(3, 3, 1, 128) dtype=float32_ref>)
(None, <tf.Variable 'model_2/c1/bias:0' shape=(128,) dtype=float32_ref>)
(None, <tf.Variable 'model_2/dense_3/kernel:0' shape=(128, 10) dtype=float32_ref>)
(None, <tf.Variable 'model_2/dense_3/bias:0' shape=(10,) dtype=float32_ref>)
len(grads_vars): 0

4.尝试过的方法方式
5.相关截图

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dabocaiqq 2019-07-22 13:50
关注
https://blog.csdn.net/wsp_1138886114/article/details/80696358

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

深度学习学习笔记——optimizer里的computer_gradients和apply_gradients和tape的函数gradient
2021-06-10 17:32

phily123的博客 tensorflow中的所有优化器（sgd,adam等）都有这两个函数。一、computer_gradients compute_gradients( loss, var_list=None, gate_gradients=GATE_OP, ...功能：计算loss中可训练的var_list中的梯度。参数：l
详解 PyTorch中optimizer.zero_grad()的作用及其影响: How optimizer.zero_grad() works under the hood
2024-12-13 20:24

阿正的梦工坊的博客 -8.0 清零 - 第 2 轮梯度：-6.4 清零 - 第 3 轮梯度：-5.12 不清零梯度未清零 - 第 1 轮梯度：-8.0 未清零 - 第 2 轮梯度：-14.4 未清零 - 第 3 轮梯度：-19.52 可以看到：清零梯度：每次梯度更新都是独立计算的。...
理解optimizer.zero_grad(), loss.backward(), optimizer.step()的作用及原理
2020-07-16 02:15

潜行隐耀的博客在使用pytorch训练模型时，经常可以在迭代的过程中看到optimizer.zero_grad(),loss.backward()和...optimizer = torch.optim.SGD(model.parameters(), lr=0.001, momentum=0.9, weight_decay=1e-4) for epoch in r
Pytorch：torch.optim模块
2023-11-29 18:12

北方骑马的萝卜的博客本篇笔记主要介绍torch.optim模块，记录学习...torch.optim是PyTorch中的一个模块，它提供了各种优化算法的实现，用于自动化地优化神经网络的参数。换句话说，torch.optim可以帮助我们让模型更好地学习，从而提高性能。
将TF1.x 程序移植到TF 2.x
2020-06-12 17:17

风华明远的博客 TF2.x 与TF1.x有很大的差别，除了一些函数做了修改之外，最大的变化就是使用了急切执行。Session已经不再使用了。虽然可以使用 ...第一步当然是直接 import tensorflow as tf 第二步是去除Session相
Huggingface trainer、model.from_pretrained、tokenizer()简单介绍（笔记）
2024-03-31 22:25

自学AI的鲨鱼儿的博客 dataset=eval_dataset, tokenizer=tokenizer, compute_metrics=compute_metrics, # 请确保compute_metrics函数正确定义并返回一个包含metric_for_best_model指定指标的字典。 ) metrics = train_result.metrics ...
LLM基础之transformers源码一
2025-04-26 20:40

stund的博客【代码】LLM基础之源码一。
pytorch--＞optimizer.zero_grad()、loss.backward()、optimizer.step()和scheduler.step()
2022-03-26 09:39

努力学习的小小徐的博客优化器optimizer的作用优化器就是需要根据网络反向传播的梯度信息来更新网络的参数，...总得来说，这三个函数的作用是先将梯度归零（optimizer.zero_grad()），然后反向传播计算得到每个参数的梯度值（loss.backward()
Pytorch网络训练流程的作用原理：源码分析optimizer.zero_grad()loss.backward()optimizer.step()
2021-08-25 10:52

呆呆象呆呆的博客 1 总述在用pytorch训练模型时，通常会在循环epoch的过程中，不断循环遍历所有训练数据集。依次用到optimizer.zero_grad()，loss.backward()和optimizer.step()三个函数，如下所示： model = MyModel() criterion =...
optimizer.zero_grad()，loss.backward()，optimizer.step()的作用原理
2020-11-14 10:34

张张呀呀的博客目录前言一、optimizer.zero_grad()二、 loss.backward()三、optimizer.step() 前言在用pytorch训练模型时，通常会在遍历epochs的过程中依次用到 optimizer.zero_grad(), loss.backward() 和 optimizer.step() 三...
5.优化算法与Torch.optim库
2019-05-22 21:48

beebabo的博客 TORCH.OPTIM torch.optim is a package implementing various optimization algorithms. Most commonly used methods are already supported, and the interface is general enough, so that more sophisticated one...
leaf node、detach()、with no_grad()、.grad_fn()、requires_grad、Grad Modes、.zero_grad()/step、.backward等
2024-03-29 22:51

Kiki酱。的博客所有requires_grad为False的张量，都约定俗成地归结为叶子张量requires_grad为True且由用户创建的,则它们是叶张量(leaf Tensor)，例如各种网络层，nn.Linear(), nn.Conv2d()等。下图中绿色的点都是叶子节点：非叶子...
第十六节 huggingface的trainner的_inner_training_loop函数源码解读(step)
2024-05-29 22:46

tangjunjun-owen的博客第一篇文章介绍参数；第二篇文章给出一个完整Demo，并介绍trainner源码的整体结构，呈现一个整体框架；第三篇文章介绍给出数据构造、优化器构建方法源码解读；第四篇篇文章介绍epoch外循环训练相关源码解读；第五篇...
【提示学习代码】CoOp代码详读
2024-03-16 12:10

一个很菜的小猪的博客 CoOp是对CLIP的改进工作，主要是对prompt进行学习从而不用来手动设置prompt。自定义CLIP模型:上述两个...将图像和文本进行编码并计算它们之间的相似性。permute后变成了（4，2，3）Prompt学习器，用于学习生成提示。
【pytorch】封装 optimizer实现 “梯度截断” 与 “学习率下调”
2020-05-22 21:49

颹蕭蕭的博客文章目录参考代码初始化梯度截断下调学习率参考代码 https://github.com/laiguokun/LSTNet 初始化 import math import torch.optim as optim class Optim(object): def _makeOptimizer(self): if self.method =...
【TensorFlow 入门】2、优化器函数 Optimizer
2018-02-02 18:49

呆呆的猫的博客因为深度学习常见的是对于梯度的优化，也就是说，优化器最后其实就是各种对于梯度下降算法的优化。常用的optimizer类 Optimizer GradientDescentOptimizer AdagradOptimizer AdagradDAOptimizer ...
Torch训练优化
2022-07-04 15:34

Mr_wuliboy的博客 01考虑换一种学习率 schedule学习率 schedule 的选择对模型的收敛速度和泛化能力有很大的影响。Leslie N. Smith 等人在论文《Cyclical Learning Rates for Training Neural Networks》、《Super-Convergence: Very ...
LoRA6~Stable Diffusion
2024-02-23 22:51

whaosoft143的博客 SD 只是一个生成任意图片的模型。之后，为了获取两张图片的插值，我们可以对两张图片 DDIM Inversion 的初始隐变量及两个 LoRA 分别插值，用插值过的隐变量在插值过的 SD LoRA 上生成图片就能得到插值图片。我在几乎...
OLMo系列——预训练part1（olmo/train.py）
2024-02-18 22:43

瓶子好亮的博客 CLASS 1 @dataclass class SpeedMonitor: cfg: SpeedMonitorConfig start_times: Deque[float] = field(default_factory=lambda: deque([])) global_total_tokens: int = 0 device_interval_tokens: Deque[int] ...
没有解决我的问题, 去提问

optim.compute_gradients计算梯度 ,为什么返回的第一列为None?

1条回答 默认 最新

1条回答默认最新