深度学习中为什么设置这几类参数不进行优化

深度学习为什么这几类参数不进行优化

no_decay = ['bias', 'LayerNorm', 'layer_norm']

想问为什么在深度学习中经常设置这几类参数不进行优化

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
爱晚乏客游 2022-10-26 09:55
关注
我搜索了下，你这个应该是transformer里面的吧。
个人理解，这段代码的作用是在正则化的时候忽略掉这些参数，而正则化的作用就是防止过拟合，从这个方面上来想，正则化的过程通常要求模型的输出对输入数据的变化非常敏感（往往需要在拟合函数中有很大的斜率，这样才能达到反应灵敏的需求）。而从y=WX+b这种格式的公式上面来看，只有权重决定了斜率，而正则化的过程是减少了权重影响，求导之后与bias就无关了，偏置参数有点类似函数截距，对于斜率没有影响。
所以既然没有影响，那就不需要去浪费资源去计算了。
如果有其他原因，也请大佬们说一说，咱也想知道为啥，应该不只是简单的为了计算速度吧

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

为什么不用matlab做深度学习？人工智能深度学习
2022-10-13 10:46

回答 2 已采纳 matlab可以做深度学习，但是从实用性的角度来讲matlab的实现效率相对较低，训练耗时较长。初次学习计算机语言就选择matlab不是一个明智的选择，最好选用C或者Basic作为入门语言。matla
深度学习中，模型的准确率飘忽不定是什么回事 python 深度学习神经网络
2023-02-19 15:09

回答 2 已采纳模型的准确率飘忽不定可能有以下几个原因： 1.数据集不足：如果数据集很小，模型可能无法充分地学习数据集中的特征，因此准确率可能会随着不同的训练数据集的变化而变化。 2.模型结构：如果模型结构不合适，可
人工智能专业机器学习深度学习什么的用这个显卡够了吗机器学习深度学习神经网络
2021-09-07 14:41

回答 2 已采纳我觉得够用，我用的GTX1650，做机器学习预测模型的时候电脑都没啥反应， https://img-mid.csdnimg.cn/re
软件实习人工智能深度学习讲解
2022-04-05 08:21

在“软件实习人工智能深度学习讲解”这一主题中，我们探讨的是如何在实习期间深入理解和应用人工智能，特别是深度学习技术。人工智能是计算机科学的一个分支，它致力于构建智能机器或软件，模仿人类的思考过程。深度...
跑深度学习为什么两个软件显示的的GPU资源使用不一样啊？ python 机器学习深度学习
2021-07-24 21:59

回答 1 已采纳鄙人接触过AI换脸有两个版本一个是英伟达用CUDA技术还有个就是AMD和intel 两者不能混用据我的知识库了解 深度学习是吃显存的
深度学习中不进行数据增强的验证集应如何做数据划分机器学习深度学习
2023-04-11 19:56

回答 2 已采纳回答：1、验证集和测试集不需要扩充，数据扩充指针对训练集。 2、比例指的是对原始数据划分的比例，不考虑增强后的。 3、首先要明白做数据增强的意义，是为了利用现有训练集的数
深度学习CNN中Lenet和优化器 cnn python 深度学习
2023-02-17 13:04

回答 3 已采纳 import torch import torchvision.models as models # 加载预训练的LeNet模型 model = models.lenet(pretrained=T
AI入门指南(一)：什么是人工智能、机器学习、神经网络、深度学习？
2024-08-02 10:24

高亮的博客在《AI入门指南：什么是人工智能、机器学习、神经网络和深度学习？》这篇文章中，详细介绍了人工智能的基础概念和其发展历程。文章深入浅出地解释了人工智能（AI）和机器学习（ML）之间的区别，并探讨了神经网络与...
python深度学习分类后的混淆矩阵的显示方式为什么不是单纯的一个矩阵 python 人工智能机器学习深度学习神经网络
2019-09-11 00:07

回答 1 已采纳 https://blog.csdn.net/qq_36982160/article/details/80038380
为什么loss和acc陡然下降如何调整为宜？(深度学习 影像分割分割二值分类 TensorFlow keras unet ) tensorflow 分类深度学习
2022-08-17 10:03

回答 9 已采纳数据增强使用CutMix和Cutout，其中CutMix就是将一部分区域cut掉但不填充0像素而是随机填充训练集中的其他数据的区域像素值，分类结果按一定的比例分配；Cutout:随机的将样本中的部分区
pytorch深度学习图像分类后如何利用其他参数融合测试(语言-python) python 图像处理深度学习
2023-04-12 14:23

回答 1 已采纳对于添加天气和温度参数来辅助图像分类，可以采用多模型融合的方法。在此方法中，可以将天气和温度参数作为输入，并将它们与道路状态图像结合起来形成一个多模型，使用深度学习技术进行融合。这样，不仅可以从有效捕
深度学习知识点全面总结
2022-01-05 16:29

GoAI的博客本文详细介绍深度学习概念及原理，参考网上相关资料汇总，内容包含众多章节，包括神经网络基础及常见深度学习网络结构介绍，用于个人学习总结，适合深度学习初学者学习。同时介绍机器学习常见的分类算法：SVM、神经...
深度学习训练模型的时候一个epoch的时间为什么会越来越长？ pytorch 深度学习目标检测
2021-09-16 21:35

回答 1 已采纳在训练的时候用visdom可视化每个iterator的loss值，把visdom换成tensorbord发现问题解决了，应该是用visdom记录的时候占用了电脑的进程。
机器/深度学习模型最优化问题详解及优化算法汇总
2023-11-10 08:45

fanstuck的博客其实最优化问题，从小学开始学习数学的时候就可以说已经接触到了，在我印象中有个问题，用一个平底锅煎饼，每次只能放2只饼，煎一只饼要2分钟（正反各用1分钟），煎三只饼要几分钟。这个问题其实已经可以归为最优化...
机器学习中的数学——优化技术：参数初始化策略
2022-03-12 14:05

von Neumann的博客有些其他优化算法本质上是迭代的，但是应用于这一类的优化问题时，能在可接受的时间内收敛到可接受的解，并且与初始值无关。深度学习训练算法通常没有这两种奢侈的性质。深度学习模型的训练算法通常是迭代的，因此...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 10月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月25日

悬赏问题

¥15 下载ctorch报错，求解
¥60 iinfercnv 肿瘤进化树
¥15 如何入门学习c语言，单片机
¥15 idea 编辑语言的选择
¥15 Windows下部署Asmjit
¥15 请问双层规划模型的上下层目标函数不一致，是如何保证迭代收敛性的
¥15 微信小程序前端页面内容搜索
¥15 cpu是如何判断当前指令已经执行完毕，然后去执行下条指令的
¥15 安装visual studio2022时visualstudiosetup启动不了，闪退。问题代号0x0和0x1389
¥30 java spring boot2.5.3版本websocket连不上

深度学习中为什么设置这几类参数不进行优化

深度学习为什么这几类参数不进行优化

想问为什么在深度学习中经常设置这几类参数不进行优化

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新