在训练时发现梯度范数一直是0


def forward(self, x):
    with torch.no_grad():
        x = self.vae.encode(x).latent_dist.sample().mul_(0.15)
    for layer in self.layers:
        x = layer(x)
    with torch.no_grad():
        x = self.vae.decode(x / 0.18215).sample
    x.requires_grad_(True)
    return x

以上是一个forward函数,使用VAE来进行encode和decode，但是我发现训练时梯度范数grad_norm从一开始就是0,但是损失又在慢慢下降，这是为什么？如果不加上VAE，梯度范数就是正常的，如下:


def forward(self, x):
    for layer in self.layers:
        x = layer(x)
    return x

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

14条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
叫兽-郭老师 Java领域新星创作者 2024-03-10 13:05
关注
🌈🌈🌈参考通义千问和郭老师的小迷弟雅思莫了-编写提供🌈🌈🌈
您可以参考如下，如果回答的不正确，及时评论区回复我，我会根据你错误描述追加回复，直到您满意为止。
观察你的代码，问题可能是因为你在前向传播的过程中使用了torch.no_grad()。torch.no_grad()的作用是暂时禁止对tensor数据进行梯度追踪。在这个上下文管理器中完成的所有运算都不会被追踪。在你的代码中，你对VAE的编码和解码过程使用了torch.no_grad()，这意味着这两个步骤对于梯度计算是不可见的，即使你在后面对x使用了requires_grad_(True)，那也只能对x进行梯度追踪，而不能恢复你在torch.no_grad()中丢失的梯度信息。如果在训练过程中，你对这两个步骤的梯度感兴趣，那么需要移除torch.no_grad()。不过，请注意，如果你同时更新了VAE和其他层，可能需要为VAE和其他层设置不同的学习率，因为通常在微调预训练模型时，直接使用预训练模型的学习率会导致模型快速收敛然后反弹。可以参考这样改：
def forward(self, x): # 移除torch.no_grad() x = self.vae.encode(x).latent_dist.sample().mul_(0.15) for layer in self.layers: x = layer(x) x = self.vae.decode(x / 0.18215).sample x.requires_grad_(True) return x

以上修改只是移除了torch.no_grad()，如果你仍然希望在特定部分禁用梯度计算，但又需要梯度信息，你可能需要手动保存特定tensor的梯度，然后在禁用梯度计算之后手动恢复。具体做法会比较复杂，需要具体任务进行设计。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(13条)

报告相同问题？

关注问题

给定一个函数，如何判断该函数是否为一个向量范数其他机器学习深度学习
2021-12-22 09:55

回答 1 已采纳当f满足以下3个条件就是一个向量范数 f(x)>=0 当且仅当x=0时取0对任意实数a, f(ax) = abs(a)*f(x)对任意两个向量x, y, f(x+y) <= f(x) +
Python编程怎么写能完成下面这个啊？ python
2021-01-17 09:50

回答 1 已采纳矩阵乘积： import numpy as np np.dot(a,b) 矩阵的逆： np.linalg.inv(a) 矩阵行列式： np.linalg.det(a) 矩阵的范数：
深度学习中的向量演算和MLE，求方法学习方法机器学习深度学习
2023-01-25 15:53

回答 2 已采纳 1、首先要了解向量的偏导数，对于三维向量x=(x1,x2,x3)，f(x)的偏导数为(df/dx1, df/dx2, df/dx3)。对于范数而言，范数是向量每一维的平方和的开根号，即||x||=sq
Autograd:我用几种编程语言实现AutoGrad算法的尝试
2021-03-09 21:42

在不同的编程语言中实现AutoGrad可能涉及到不同的数据结构和编程范式，但核心思想是相同的，即记录运算历史以便于反向传播。在Python中，利用其动态特性和丰富的科学计算库，可以较为直观地实现这一过程。
Python计算两个坐标点之间的距离 python
2021-10-04 14:30

回答 2 已采纳 import matha,b,c,d=map(float,input().split())e=math.sqrt((a-c)(a-c)+(b-d)(b-d))print("%.2f"%e)
MATLAB中cvx工具包的minimize函数的参数报错问题 matlab
2023-04-09 22:46

回答 1 已采纳 pow_cvx 函数的第三个参数需要指定为 pow_p、pow_pos 或 pow_abs比如说z = pow_cvx(a, y, 'pow_p', 2); % 指数为 2 的幂次运算，等价于 a.^
matlab关于CVX优化的问题 matlab 有问必答
2022-02-12 20:56

回答 1 已采纳核范数可以用 norm_nuc(V) 来求，规定矩阵V对角线为全一向量应该写成 diag(V) == ones(64,1);你可以研究一下这个用户手册 http://cvxr.com/cvx/doc/
ml_algo：Dart编程语言中的机器学习算法
2021-01-28 19:09

在Dart编程语言中，机器学习（Machine Learning, ML）算法的应用正变得越来越普遍，尤其在数据科学领域。本文将深入探讨如何使用Dart来实现和应用各种机器学习算法，包括分类器、回归分析和超参数调整等核心概念。 ...
有关非线性最优化手眼标定的求助帖
2015-04-09 13:31

回答 1 已采纳看来很少有人做这个，自己给自己顶一下
使用Python编程语言求解优化问题：非线性共轭梯度法的详细解析与应用
2024-07-28 15:09

m0_57781768的博客优化问题在各种科学与工程领域中广泛存在，例如经济学中的资源分配问题、机器学习中的模型参数调整问题、工程设计中的结构优化问题等。优化问题可分为线性优化问题和非线性优化问题，其中非线性优化问题由于其复杂性...
使用MATLAB编程语言求解优化问题：非线性共轭梯度法的详细解析与应用
2024-07-28 14:02

m0_57781768的博客优化问题在各种科学与工程领域中广泛存在，例如经济学中的资源分配问题、机器学习中的模型参数调整问题、工程设计中的结构优化问题等。优化问题可分为线性优化问题和非线性优化问题，其中非线性优化问题由于其复杂性...
梯度下降和梯度上升算法的实现
2018-01-25 16:20

在`code`文件中，可能包含了用Python或其他编程语言实现的梯度下降和梯度上升的示例代码。这些代码通常会包含上述提到的步骤，如初始化、梯度计算、参数更新和迭代循环。总之，梯度下降和梯度上升是优化算法的核心...
大语言模型原理与工程实践：手把手教你训练 7B 大语言模型自动化训练框架
2024-07-10 00:52

AI天才研究院的博客近年来，大语言模型（Large Language Models，LLMs）在自然语言处理领域取得了突破性进展。从GPT-3到ChatGPT，再到最新的GPT-4，这些模型展现出了惊人的语言理解和生成能力，引发了学术界和产业界的广泛关注。然而，...
毕业设计MATLAB_梯度下降优化.zip
2024-02-20 22:55

标题中的“MATLAB_梯度下降优化.zip”表明这是一个与MATLAB编程相关的毕业设计，主要聚焦于梯度下降法的优化。在机器学习和深度学习领域，梯度下降是求解损失函数最小化问题的常用算法，用于更新模型参数以更接近最...
利用GAN避免梯度爆炸：实践与理论分析
2023-07-20 01:47

AI天才研究院的博客梯度消失(gradient vanishing)和梯度爆炸(gradient exploding)是两种经典的梯度弥散（vanishing gradient）问题，在神经网络训练中会导致模型性能不佳，导致模型训练困难甚至崩溃。近年来，通过改进网络结构、初始化...
模型的一些自动化训练的方法，如自动微分求解器（Autograd），基于梯度下降的优化算法（SGD/Adam），Dropout层等
2023-08-31 11:52

AI天才研究院的博客近几年随着数据量的增长以及硬件性能的提升，神经网络（Neural Network）已经逐渐成为机器学习领域最热门的技术之一，在自然语言处理、计算机视觉等方面都取得了突破性的成果。但是，传统的神经网络模型设计方法需要...
Face-detection:该任务的目的是用训练算法实现逻辑回归模型，以用于照片中的人脸检测任务。使用模型训练，梯度算法，随机简单梯度算法，正则化，模型选择，操作正确性测试
2021-03-20 09:49

8. **Python编程**：本项目中使用的编程语言是Python，它在数据科学和机器学习领域广泛使用。Python拥有丰富的库支持，如NumPy、Pandas用于数据预处理，Matplotlib和Seaborn用于可视化，以及Scikit-learn库实现机器...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月10日

悬赏问题

¥30 模拟电路 logisim
¥15 PVE8.2.7无法成功使用a5000的vGPU，什么原因
¥15 is not in the mmseg::model registry。报错，模型注册表找不到自定义模块。
¥15 安装quartus II18.1时弹出此error，怎么解决？
¥15 keil官网下载psn序列号在哪
¥15 想用adb命令做一个通话软件，播放录音
¥30 Pytorch深度学习服务器跑不通问题解决？
¥15 部分客户订单定位有误的问题
¥15 如何在maya程序中利用python编写领子和褶裥的模型的方法
¥15 Bug traq 数据包大概什么价

在训练时发现梯度范数一直是0

14条回答 默认 最新

问题事件

悬赏问题

14条回答默认最新