关于GradNorm（深度学习里面多任务学习的权重设计梯度归一化）代码debug错误

网上下载了一个深度学习代码，用于多任务权重梯度归一化 https://github.com/brianlan/pytorch-grad-norm

作者应该是参照这个论文写的GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks

然后debug的时候，有个地方自动求梯度，在最后一行那里

    for t in range(n_iterations):

        # get a single batch
        for (it, batch) in enumerate(data_loader):
            # get the X and the targets values
            X = batch[0]
            ts = batch[1]
            if torch.cuda.is_available():
                X = X.cuda()
                ts = ts.cuda()

            # evaluate each task loss L_i(t)
            task_loss = model(X, ts) # this will do a forward pass in the model and will also evaluate the loss
            # compute the weighted loss w_i(t) * L_i(t)
            weighted_task_loss = torch.mul(model.weights, task_loss)
            # initialize the initial loss L(0) if t=0
            if t == 0:
                # set L(0)
                if torch.cuda.is_available():
                    initial_task_loss = task_loss.data.cpu()
                else:
                    initial_task_loss = task_loss.data
                initial_task_loss = initial_task_loss.numpy()

            # get the total loss
            loss = torch.sum(weighted_task_loss)
            # clear the gradients
            optimizer.zero_grad()
            # do the backward pass to compute the gradients for the whole set of weights
            # This is equivalent to compute each \nabla_W L_i(t)
            loss.backward(retain_graph=True)

            # set the gradients of w_i(t) to zero because these gradients have to be updated using the GradNorm loss
            #print('Before turning to 0: {}'.format(model.weights.grad))
            model.weights.grad.data = model.weights.grad.data * 0.0
            #print('Turning to 0: {}'.format(model.weights.grad))


            # switch for each weighting algorithm:
            # --> grad norm
            if args.mode == 'grad_norm':
                
                # get layer of shared weights
                W = model.get_last_shared_layer()
                print(W.parameters())
                # get the gradient norms for each of the tasks
                # G^{(i)}_w(t) 
                norms = []
                for i in range(len(task_loss)):
                    # get the gradient of this task loss with respect to the shared parameters
                    gygw = torch.autograd.grad(task_loss[i], W.parameters(), retain_graph=True)
                    # compute the norm
                    norms.append(torch.norm(torch.mul(model.weights[i], gygw[0])))
                norms = torch.stack(norms)
                #print('G_w(t): {}'.format(norms))


                # compute the inverse training rate r_i(t) 
                # \curl{L}_i 
                if torch.cuda.is_available():
                    loss_ratio = task_loss.data.cpu().numpy() / initial_task_loss
                else:
                    loss_ratio = task_loss.data.numpy() / initial_task_loss
                # r_i(t)
                inverse_train_rate = loss_ratio / np.mean(loss_ratio)
                #print('r_i(t): {}'.format(inverse_train_rate))


                # compute the mean norm \tilde{G}_w(t) 
                if torch.cuda.is_available():
                    mean_norm = np.mean(norms.data.cpu().numpy())
                else:
                    mean_norm = np.mean(norms.data.numpy())
                #print('tilde G_w(t): {}'.format(mean_norm))


                # compute the GradNorm loss 
                # this term has to remain constant
                constant_term = torch.tensor(mean_norm * (inverse_train_rate ** args.alpha), requires_grad=False)
                if torch.cuda.is_available():
                    constant_term = constant_term.cuda()
                #print('Constant term: {}'.format(constant_term))
                #this is the GradNorm loss itself
                grad_norm_loss = torch.tensor(torch.sum(torch.abs(norms - constant_term)))
                #print('GradNorm loss {}'.format(grad_norm_loss))

                # compute the gradient for the weights
                model.weights.grad = torch.autograd.grad(grad_norm_loss, model.weights)[0]

先是报错runtimeerror:element 0 of tensors does not require grad and does not have a grad_fn,我检查了之后估计是grad_norm_loss这个变量require_grad=False,我改成了True,但是还报错runtimeError: One of the differentiated Tensors appears to not have been used in the graph. Set allow_unused=True if this is the desired behavior.我就加上了allow_unsed=True,因此我把最后一行改成这样

model.weights.grad = torch.autograd.grad(
    Variable(torch.tensor(torch.sum(torch.abs(norms - constant_term))), requires_grad=True),
    model.weights)[0]

但是求出来的梯度=none，这样子就导致我这个model.weights就不能更新了，我不知道是怎么回事，求求各位大神帮忙看看

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-孙老师 2021-04-04 01:55
关注
可能跟叶子节点（最初定义的变量）有关，计算梯度的时候，只有叶子节点才会保留梯度，所有中间节点的grad在计算完backward()的时候为了节约内存都会被清除掉。建议检查最初定义的变量是否有改变。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

关于GradNorm（深度学习里面多任务学习的权重设计梯度归一化）代码debug错误 python 有问必答深度学习
2021-04-02 20:08

回答 4 已采纳可能跟叶子节点（最初定义的变量）有关，计算梯度的时候，只有叶子节点才会保留梯度，所有中间节点的grad在计算完backward()的时候为了节约内存都会被清除掉。建议检查最初定义的变量是否有改变。
深度学习初始化权重细节深度学习
2022-05-07 11:49

回答 1 已采纳你用的什么框架，只在训练开始初始化一次就够了，一般是默认自动的吧，好像是有不同的初始化方式，但一般不用管。
#在VS code 中导入学习后的权重出错，提示找不到权重文件， python 有问必答深度学习
2022-03-30 20:01

回答 2 已采纳你是用vscode打开了项目目录，相对路径需要相对这个项目目录，不能相对当前py文件你要相对py文件的路径，用vscode打开单独的py文件就行了或者参考在vscod
Python 深度学习
2022-11-30 23:59

Yup_Boss的博客 深度学习
机器学习一元线性回归错误 python 有问必答机器学习线性回归
2022-12-13 16:03

回答 2 已采纳这篇文章讲的很详细，请看：多元线性回归解决机器学习问题的一般方法
深度学习模型的问题。人工智能深度学习神经网络
2021-03-25 13:45

回答 2 已采纳只要模型结构不变，那么模型大小是一样的，只不过模型里面的超参会不一样，超参会随着数据和训练次数等因素变化。一般来说，同种类型的网络(像yolo5，有s,l,m,x四个大小的)，网络越大的效果会越好
关于fasterrcnn的train.py报错“段错误，核心已转储” pytorch 机器学习深度学习
2022-04-15 11:00

回答 1 已采纳错误请截取完整错误信息，就一个段错误，谁知道你是哪里的段错误
【二】从小白开始使用Python一步一步搭建一个深度学习UI界面【界面设计】
2024-05-31 16:22

多巴胺耐受的博客这里提供了界面控件设计的相关代码
pytorch权重初始化 pytorch 深度学习神经网络
2023-03-26 15:28

回答 1 已采纳参考GPT和自己的思路：如果没有对网络中的权重进行初始化处理，PyTorch会使用默认的方法对各层权重进行初始化，其中普通的线性层权重初始化为均匀分布的随机值，卷积层权重初始化为Kaiming He初
关于Python#线性回归#中遇到的syntax error问题，如何解决？ python 机器学习线性回归
2023-01-31 11:42

回答 4 已采纳可以尝试将 w[0] = bias 改为 weight[0] = bias。
请问不用迁移学习，faster rcnn怎么去重新训练呀 python 深度学习
2021-03-18 16:25

回答 1 已采纳加载原来的预训练模型，一般每一层网络都会有一个id，找到你需要的id（这里可以使用https://netron.app/来查看你的预训练模型的结构），这些就不怎么需要变换，然后把不需要的去掉，换上你的
深度学习第二课程笔记-第一周正则化，梯度检验
2020-11-21 17:56

Da_haihuang的博客 深度学习第二课程笔记实际应用中，创建一个合适的训练集和测试集能大大提高我们的效率。训练集中，往往都是制作经精良，分辨率高的图片，而用户的测试中，可能只是随手拍，分辨率及照片质量较低的。基于这种情况...
本人用yolov5训练出了一个猪识别模型，有什么代码可以调用权重文件best.pt进一步实现猪的身份识别？或者有什么类似的实操案例？ python 深度学习
2023-04-18 18:06

回答 3 已采纳基于Monster 组和GPT的调写：用以下代码： import torch import cv2 from models.experimental import attempt_load from
python3入门机器学习，知识点全面总结与代码实操示例
2024-03-19 17:16

司江龙的博客当然它也是人工智能、大模型、深度学习、神经网络、这些目前特别热且前沿的技术的基石。在算法部分，每个经典算法都有具体实例代码演练，希望初次学习的小伙伴可以下载搭建基础的运行环境来实操一下，尤其是数字识别...
深度学习03-卷积神经网络(CNN)
2023-05-12 17:43

liaomin416100569的博客 CNN，即卷积神经网络（Convolutional Neural Network），是一种常用于图像和视频处理的深度学习模型。与传统神经网络相比，CNN 有着更好的处理图像和序列数据的能力，因为它能够自动学习图像中的特征，并提取出最...
没有解决我的问题, 去提问

悬赏问题

¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
¥15 无线连接树莓派，无法执行update，如何解决？（相关搜索：软件下载）
¥15 Windows11, backspace, enter, space键失灵

关于GradNorm（深度学习里面多任务学习的权重设计梯度归一化）代码debug错误

4条回答 默认 最新

悬赏问题

4条回答默认最新