transformer中，全连接层中的w需要训练么？

就是说除了自注意力机制本身的WQ,WK,WV需要训练，全连接层中的w应该也是要训练的吧，还是说全部默认为1？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
日拱一两卒上海惠普机器学习算法工程师 2022-12-13 09:42
关注
你说的全连接层的W指的是权重矩阵吧，肯定是要训练的。
神经网络训练的主要目的就是更新权重矩阵的参数

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

transformer中，全连接层中的w需要训练么？人工智能机器学习深度学习
2022-12-12 17:20

回答 1 已采纳你说的全连接层的W指的是权重矩阵吧，肯定是要训练的。神经网络训练的主要目的就是更新权重矩阵的参数
Transformer中的相对/绝对位置信息编码究竟怎么理解？ python 深度学习神经网络
2022-11-28 18:54

回答 1 已采纳在deep learning model处理位置信息时有如下2种想法： ① 想办法将位置信息融入到输入中，这构成了绝对位置编码的一般做法；② 想办法微调一下 Attention 结构，使得它有能力分辨
三维重建中，transformer是怎么学习2D图像的深度值的？人工智能机器学习计算机视觉
2022-12-08 15:46

回答 1 已采纳望采纳transformer在三维重建中学习2D图像的深度值通常是通过单目视觉来实现的。它会计算图像中物体之间的几何关系，并利用这些信息来估计深度值。对于训练集，Transformer并不对图像有特殊
Transformer模型-线性层（Linear Layer），全连接层（Fully Connected Layer）或密集层（Dense Layer）的简明介绍：通过训练得出最佳拟合线
2024-04-04 00:30

Ankie（资深技术项目经理）的博客线性层（Linear Layer）是神经网络中的一种基本层，也被称为全连接层（Fully Connected Layer）或密集层（Dense Layer）。线性层在神经网络中起到的作用是对输入数据进行线性变换。线性层的基本操作可以表示为：(y) ...
Transformer是哪一环节开始计算损失更新权值啊？ transformer 人工智能深度学习
2022-12-07 12:00

回答 1 已采纳可以参考下ChatGPT的答案：Transformer开始计算损失更新权值的环节是在完成训练之后，利用反向传播算法（Backpropagation）计算梯度，再根据梯度来更新权值参数。
关于Swin Transformer官方代码中，WindowAttention模块中的self.proj的作用 transformer 深度学习计算机视觉
2023-02-13 14:41

回答 1 已采纳方案来自梦想橡皮擦狂飙组基于 GPT 编写的 “程秘” self.proj 是一个全连接层，在 SWIN Transformer 模型的 WindowAttention 模块中使用。它的作用是对
swin transformer训练数据集如何添加负样本人工智能深度学习目标检测
2023-03-17 18:46

回答 7 已采纳参考GPT和自己的思路，1.添加负样本的方法负样本是指不属于目标类别的样本，一般用于训练分类器或检测器来增加模型的泛化能力。添加负样本的方式可以是随机采样、手动选择或者从其他数据集中选择。在训练过程中
transformer--编码器2(前馈全连接层、规范化层、子层链接结构、编码器层、编码器)
2024-02-29 16:55

zsffuture的博客如图所示，输入到每个子层以及规范化层的过程中，还使用了残差链接(跳跃连接)，因此我们把这一部分结构整体叫做子层连接(代表子层及其链接结构)，在每个编码器层中，都有两个子层，这两个子层加上周围的链接结构就...
torch中文教程报错：ModuleNotFoundError: No module named 'sgmllib' pytorch transformer 人工智能
2021-11-04 10:07

回答 1 已采纳 pytorch的torchvision自带有transforms不用，为什么要用别的呢？安装对应的torchvision就行了
关于#transformer#的问题：transformer在SISR的问题，训练时图像小，test时可以直接对高分辨率图像处理 pytorch transformer 超分辨率重建
2023-02-01 19:33

回答 1 已采纳 Transformer模型在SISR问题中的特殊之处在于它使用了self-attention机制来捕捉图像中的长距离依赖关系，因此它可以处理任意大小的图像。在训练时使用的小图像可以避免内存问题，但是训
fast point transformer训练数据集时缺少cuda_sparse_ops 深度学习计算机视觉
2022-08-01 11:28

回答 1 已采纳这个一般是和显卡相关的一些东西，看名字应该是文件项目下面的用setup跑出来的文件会这么命名。你这个应该是个开源项目吧，仔细看下readme文件，里面一般会将怎么install项目并且运行demo，你
详解Transformer中Self-Attention以及Multi-Head Attention
2021-06-11 17:11

太阳花的小绿豆的博客最近Transformer在CV领域很火，Transformer是2017年Google在Computation and Language上发表的，当时主要是针对自然语言处理领域提出的（之前的RNN模型记忆长度有限且无法并行化，只有计算完tit_iti时刻后的数据...
transformer语义分割能通过旋转进行数据增广吗？深度学习神经网络计算机视觉
2023-03-17 01:16

回答 2 已采纳参考GPT和自己的思路：是的，Transformer语义分割可以通过旋转进行数据增广。由于Transformer缺乏卷积的位置偏置，因此我们可以使用旋转、反转等方法来增加数据的多样性。在训练过程中，
人工智能各领域跨界能手——Transformer
2023-03-17 14:20

未来GIS实验室的博客导读：Transformer源自于AI自然语言处理任务；在计算机视觉领域，近年来Transformer逐渐替代CNN成为一个热门的研究方向。此外，Transformer在文本、语音、视频等多模态领域也在崭露头角。本文对Transformer从诞生到...
transformer中QKV的通俗理解(渣男与备胎的故事)
2022-03-17 10:52

Joker-Tong的博客 transformer中QKV的通俗理解(渣男与备胎的故事) Attention is all you need
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月24日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 12月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月12日

悬赏问题

¥15 关于#matlab#的问题：在模糊控制器中选出线路信息，在simulink中根据线路信息生成速度时间目标曲线（初速度为20m/s，15秒后减为0的速度时间图像）我想问线路信息是什么
¥15 banner广告展示设置多少时间不怎么会消耗用户价值
¥16 mybatis的代理对象无法通过@Autowired装填
¥15 可见光定位matlab仿真
¥15 arduino 四自由度机械臂
¥15 wordpress 产品图片 GIF 没法显示
¥15 求三国群英传pl国战时间的修改方法
¥15 matlab代码代写，需写出详细代码，代价私
¥15 ROS系统搭建请教（跨境电商用途）
¥15 AIC3204的示例代码有吗，想用AIC3204测量血氧，找不到相关的代码。

transformer中，全连接层中的w需要训练么？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新