transformer中，全连接层中的w需要训练么？

就是说除了自注意力机制本身的WQ,WK,WV需要训练，全连接层中的w应该也是要训练的吧，还是说全部默认为1？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
日拱一两卒上海惠普机器学习算法工程师 2022-12-13 09:42
关注
你说的全连接层的W指的是权重矩阵吧，肯定是要训练的。
神经网络训练的主要目的就是更新权重矩阵的参数

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

transformer中，全连接层中的w需要训练么？人工智能机器学习深度学习
2022-12-12 17:20

回答 1 已采纳你说的全连接层的W指的是权重矩阵吧，肯定是要训练的。神经网络训练的主要目的就是更新权重矩阵的参数
Transformer中的相对/绝对位置信息编码究竟怎么理解？ python 深度学习神经网络
2022-11-28 18:54

回答 1 已采纳在deep learning model处理位置信息时有如下2种想法： ① 想办法将位置信息融入到输入中，这构成了绝对位置编码的一般做法；② 想办法微调一下 Attention 结构，使得它有能力分辨
三维重建中，transformer是怎么学习2D图像的深度值的？人工智能机器学习计算机视觉
2022-12-08 15:46

回答 1 已采纳望采纳transformer在三维重建中学习2D图像的深度值通常是通过单目视觉来实现的。它会计算图像中物体之间的几何关系，并利用这些信息来估计深度值。对于训练集，Transformer并不对图像有特殊
Transformer模型-线性层（Linear Layer），全连接层（Fully Connected Layer）或密集层（Dense Layer）的简明介绍：通过训练得出最佳拟合线
2024-04-04 00:30

Ankie（资深技术项目经理）的博客线性层（Linear Layer）是神经网络中的一种基本层，也被称为全连接层（Fully Connected Layer）或密集层（Dense Layer）。线性层在神经网络中起到的作用是对输入数据进行线性变换。线性层的基本操作可以表示为：(y) ...
Transformer是哪一环节开始计算损失更新权值啊？ transformer 人工智能深度学习
2022-12-07 12:00

回答 1 已采纳可以参考下ChatGPT的答案：Transformer开始计算损失更新权值的环节是在完成训练之后，利用反向传播算法（Backpropagation）计算梯度，再根据梯度来更新权值参数。
关于Swin Transformer官方代码中，WindowAttention模块中的self.proj的作用 transformer 深度学习计算机视觉
2023-02-13 14:41

回答 1 已采纳方案来自梦想橡皮擦狂飙组基于 GPT 编写的 “程秘” self.proj 是一个全连接层，在 SWIN Transformer 模型的 WindowAttention 模块中使用。它的作用是对
swin transformer训练数据集如何添加负样本人工智能深度学习目标检测
2023-03-17 18:46

回答 7 已采纳参考GPT和自己的思路，1.添加负样本的方法负样本是指不属于目标类别的样本，一般用于训练分类器或检测器来增加模型的泛化能力。添加负样本的方式可以是随机采样、手动选择或者从其他数据集中选择。在训练过程中
transformer--编码器2(前馈全连接层、规范化层、子层链接结构、编码器层、编码器)
2024-02-29 16:55

zsffuture的博客如图所示，输入到每个子层以及规范化层的过程中，还使用了残差链接(跳跃连接)，因此我们把这一部分结构整体叫做子层连接(代表子层及其链接结构)，在每个编码器层中，都有两个子层，这两个子层加上周围的链接结构就...
torch中文教程报错：ModuleNotFoundError: No module named 'sgmllib' pytorch transformer 人工智能
2021-11-04 10:07

回答 1 已采纳 pytorch的torchvision自带有transforms不用，为什么要用别的呢？安装对应的torchvision就行了
关于#transformer#的问题：transformer在SISR的问题，训练时图像小，test时可以直接对高分辨率图像处理 pytorch transformer 超分辨率重建
2023-02-01 19:33

回答 1 已采纳 Transformer模型在SISR问题中的特殊之处在于它使用了self-attention机制来捕捉图像中的长距离依赖关系，因此它可以处理任意大小的图像。在训练时使用的小图像可以避免内存问题，但是训
fast point transformer训练数据集时缺少cuda_sparse_ops 深度学习计算机视觉
2022-08-01 11:28

回答 1 已采纳这个一般是和显卡相关的一些东西，看名字应该是文件项目下面的用setup跑出来的文件会这么命名。你这个应该是个开源项目吧，仔细看下readme文件，里面一般会将怎么install项目并且运行demo，你
人工智能各领域跨界能手——Transformer
2023-03-17 14:20

未来GIS实验室的博客导读：Transformer源自于AI自然语言处理任务；在计算机视觉领域，近年来Transformer逐渐替代CNN成为一个热门的研究方向。此外，Transformer在文本、语音、视频等多模态领域也在崭露头角。本文对Transformer从诞生到...
transformer语义分割能通过旋转进行数据增广吗？深度学习神经网络计算机视觉
2023-03-17 01:16

回答 2 已采纳参考GPT和自己的思路：是的，Transformer语义分割可以通过旋转进行数据增广。由于Transformer缺乏卷积的位置偏置，因此我们可以使用旋转、反转等方法来增加数据的多样性。在训练过程中，
transformer中QKV的通俗理解(渣男与备胎的故事)
2022-03-17 10:52

Joker-Tong的博客 transformer中QKV的通俗理解(渣男与备胎的故事) Attention is all you need
详解Transformer中Self-Attention以及Multi-Head Attention
2021-06-11 17:11

太阳花的小绿豆的博客最近Transformer在CV领域很火，Transformer是2017年Google在Computation and Language上发表的，当时主要是针对自然语言处理领域提出的（之前的RNN模型记忆长度有限且无法并行化，只有计算完tit_iti时刻后的数据...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月24日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 12月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月12日

悬赏问题

¥30 求解达问题（有红包）
¥15 请解包一个pak文件
¥15 不同系统编译兼容问题
¥100 三相直流充电模块对数字电源芯片在物理上它必须具备哪些功能和性能？
¥30 数字电源对DSP芯片的具体要求
¥20 antv g6 折线边如何变为钝角
¥30 如何在Matlab或Python中设置饼图的高度
¥15 nginx中的CORS策略应该如何配置
¥30 信号与系统实验：采样定理分析
¥100 我想找人帮我写Python 的股票分析代码，有意请加mathtao

transformer中，全连接层中的w需要训练么？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新