为什么定义了一个参数列表进行优化，只有一部分参数是进行梯度更新的？

为什么定义了一个参数列表进行优化，只有一部分参数是进行梯度更新的？
如下面所示，我定义了一个参数列表来优化 token、text encoder和unet（text encoder和unet加了lora），但在训练中text encoder的参数是没有更新的，而unet的lora参数是进行了更新的

[{'params': [Parameter containing:
tensor([[-0.0019, -0.0093,  0.0056,  ...,  0.0012, -0.0116,  0.0078],
        [ 0.0168,  0.0025, -0.0092,  ...,  0.0093, -0.0169,  0.0168],
        [-0.0087, -0.0275,  0.0082,  ..., -0.0155,  0.0097, -0.0119],
        ...,
        [-0.0038,  0.0344,  0.0041,  ...,  0.0065, -0.0116, -0.0079],
        [ 0.0004, -0.0038,  0.0039,  ..., -0.0008,  0.0012,  0.0006],
        [ 0.0034, -0.0028,  0.0003,  ..., -0.0032,  0.0009,  0.0016]],
       requires_grad=True)], 'lr': 0.001}, {'params': <itertools.chain object at 0x7fe5e76a7940>, 'lr': 0.0005}, {'params': <itertools.chain object at 0x7fe5e7c02eb0>, 'lr': 0.0005}]

请问一下这会是什么原因？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-02-02 18:10
关注
引自免费微信小程序：皆我百晓生

在PyTorch中，当我们定义一个优化器时，通常会将模型中的所有需要更新的参数一次性或分组地传递给优化器。从您给出的信息来看，您设置了三个不同的参数组，每个参数组具有不同的学习率（lr）。params 字段下的内容是您希望优化器更新的模型参数。

optimizer = torch.optim.Adam([ {'params': [Parameter1], 'lr': 0.001}, # 这里可能是token层的参数，设置的学习率为0.001 {'params': itertools.chain(Parameter2), 'lr': 0.0005}, # 这里可能是text encoder的部分或全部参数，设置的学习率为0.0005 {'params': itertools.chain(Parameter3), 'lr': 0.0005} # 这里可能是unet及其中lora部分的参数，同样设置的学习率为0.0005 ])

对于您的问题，如果text encoder的参数没有更新，可能存在以下原因：

参数是否包含在优化器内：确保text encoder的所有可训练参数（requires_grad=True）都被正确添加到了优化器的参数列表中。这里看到的是itertools.chain对象，它可能代表了多个参数的集合。请检查这部分代码，确保链式对象包含了期望更新的text encoder的所有参数。

梯度计算与优化步骤：在训练循环中，务必正确计算并累积了text encoder的梯度，然后调用优化器的step()方法来更新参数。例如：

optimizer.zero_grad() loss.backward() # 计算损失的梯度，包括text encoder的梯度 optimizer.step() # 更新所有参数组的参数

梯度是否被禁用或重置：检查是否有代码片段在反向传播前或后意外地将text encoder的梯度清零或禁用了requires_grad属性。

模型设计或封装问题：如果text encoder是一个子模块，并且在构建模型时使用了.requires_grad_(False)或.detach()等操作，则其参数不会参与梯度计算和更新。

学习率设置：虽然您提到text encoder的参数未更新，但这里学习率不同可能是个误导点。确认未更新不是因为学习率过低导致更新幅度微小，不易察觉。

为了进一步排查，请详细审查模型构建、训练循环以及优化器配置的相关代码，以确保text encoder参数确实应该得到更新，并且在整个流程中正确参与了梯度计算和参数更新过程。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

关于利用梯度下降求参数 python 人工智能机器学习
2022-10-16 20:37

回答 2 已采纳 loss先下降后上升，可能的原因之一是学习率比较大，随机梯度下降算法没法收敛。其他的疑问有点不太理解你的意思，哈哈！
利用梯度下降训练参数人工智能数据分析机器学习
2022-10-11 12:37

回答 1 已采纳过拟合了可能
如何让卷积神经网络中间的某几层参数固定，还不影响正常的训练过程? cnn 人工智能深度学习
2022-01-13 15:01

回答 1 已采纳可以啊，冻结之后只是不更新参数和计算梯度，优化器在step的时候遇到不计算梯度的话自动就不更新参数了，但是反向传播还是正常进行的。
超参数调优和元学习在性能优化中的作用、局限性以及当前研究的最新进展
2023-07-17 00:39

禅与计算机程序设计艺术的博客作者：禅与计算机程序设计艺术人工智能(AI)技术的研究...因此，如何设计高效、鲁棒、智能的人工智能系统成为各行业和领域的重点关注之一。然而，如何保证人工智能系统的高性能，尤其是当面临复杂、多样化的场景和多
梯度下降一个公式的理解疑惑人工智能机器学习深度学习
2022-04-14 14:51

回答 1 已采纳因为下降方向就是梯度的负方向
matlab中用canny获得的梯度图为logical类型的二维矩阵的图，乘一个彩色图的话，应该怎么转换操作呢？ matlab 图像处理计算机视觉
2023-02-09 00:28

回答 2 已采纳此回答引用ChatGPT有用请采纳：在 MATLAB 中，如果想在使用 Canny 算法获得的梯度图（logical 类型的二维矩阵）上乘一个彩色图，需要进行如下操作：先将梯度图转换为 double
tensorflow手写识别，在进行测试时，循环最后一次batch数发生变化导致报错，如何解决？ python tensorflow 图像处理
2022-05-19 17:31

回答 2 已采纳 batch代表的是每次从训练集取的样本数，你的训练集样本应该最后一次只剩下16个了。
随机梯度下降（Stochastic Gradient Descent，SGD）迭代优化算法原理、算法实现及应用
2023-08-06 01:47

禅与计算机程序设计艺术的博客该算法在每次迭代时随机选择一个训练样本，并利用该样本对模型参数θ进行更新，然后重复这个过程多次。虽然每次迭代都能获得局部最优解，但是由于采用了随机梯度下降法，使得模型训练的效率很高，而且能够很好地克服...
图像的梯度提取 & 非参数估计方法拟合函数再求导 python 图像处理机器学习
2022-07-06 21:17

回答 1 已采纳差分就是离散化的微分。连续函数的微分求导，离散后就是差分。微分方程的数值解法，就是差分方程。（1）图像是离散的点，图像表达为二维矩阵，图像梯度可以把图像看成二维离散函数，图像梯度其实就是这个二维离散函
这个是为什么呀，为什么这个图像识别就是跑不起来呢 pytorch
2022-07-19 16:31

回答 1 已采纳维度不匹配，你这里224x224x3下来的，经过一次卷积一次池化，再次卷积，简单计算可能最后从224X224变道7X7X128，按照每次卷积大小不变，池化缩小2计算，你这里至少是5层的卷积池化才能达到
tensorflow2.x 深度学习使用相同梯度进行梯度下降的两个相同神经网络，得到的结果却不同 tensorflow 深度学习神经网络
2021-03-12 00:07

回答 2 已采纳在上面给的代码的第164行处插入 optimizer = optimizers.Adam(lr=1e-4) 重新初始化optimizer，这样两个模型训练后的测试结果就一样了，望采纳
如何使用Python实现一个简单的粒子群优化算法
2023-08-02 00:18

禅与计算机程序设计艺术的博客概述粒子群优化（PSO）是一种基于模拟自然界中种群行为特征的优化算法。它通过生成一组在一定范围内随机分布的质点（粒子），然后利用其群体特性对目标函数进行模拟、迭代逼近最优解，并找出全局最优解。PSO算法的...
能帮忙写一个 python 梯度法求 y = x1 * x1 + x2 * x2 的最小值吗？ python
2019-11-13 17:28

回答 1 已采纳 https://blog.csdn.net/R18830287035/article/details/88850549
【自然语言处理】【大模型】BLOOM：一个176B参数且可开放获取的多语言模型
2023-02-06 20:51

BQW_的博客预训练语言模型已经成为了现代自然语言处理pipeline中的基石，因为其在少量的标注数据上产生更好的结果。随着ELMo、ULMFiT、GPT和BERT的开发，使用预训练模型在下游任务上微调的范式被广泛使用。随后发现预训练...
数据标签化：如何通过标签化数据进行文本分类和自然语言处理自然语言处理教程
2023-07-18 00:42

禅与计算机程序设计艺术的博客在自然语言处理中，词性标注、命名实体识别、句法分析、语义理解、语音合成、信息检索、文档摘要等功能需要对输入文本进行分析处理。这些任务通常都涉及到大量的数据处理工作。例如，给定一个文本序列（如一段话或一...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月2日

悬赏问题

¥15 Mac系统vs code使用phpstudy如何配置debug来调试php
¥15 目前主流的音乐软件，像网易云音乐，QQ音乐他们的前端和后台部分是用的什么技术实现的?求解！
¥60 pb数据库修改与连接
¥15 spss统计中二分类变量和有序变量的相关性分析可以用kendall相关分析吗？
¥15 拟通过pc下指令到安卓系统，如果追求响应速度，尽可能无延迟，是不是用安卓模拟器会优于实体的安卓手机？如果是，可以快多少毫秒？
¥20 神经网络Sequential name=sequential, built=False
¥16 Qphython 用xlrd读取excel报错
¥15 单片机学习顺序问题！！
¥15 ikuai客户端多拨vpn，重启总是有个别重拨不上
¥20 关于#anlogic#sdram#的问题，如何解决？(关键词-performance)

为什么定义了一个参数列表进行优化，只有一部分参数是进行梯度更新的？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新