计算机视觉中transformer的tgt究竟如何理解呢

请问transformer中的tgt是什么意思？如maskformer中的TransformerDecoderLayer类中，前向传播代码如下


    def forward_post(
        self,
        tgt,
        memory,
        tgt_mask: Optional[Tensor] = None,
        memory_mask: Optional[Tensor] = None,
        tgt_key_padding_mask: Optional[Tensor] = None,
        memory_key_padding_mask: Optional[Tensor] = None,
        pos: Optional[Tensor] = None,
        query_pos: Optional[Tensor] = None,
    ):
        q = k = self.with_pos_embed(tgt, query_pos)
        tgt2 = self.self_attn(
            q, k, value=tgt, attn_mask=tgt_mask, key_padding_mask=tgt_key_padding_mask
        )[0]
        tgt = tgt + self.dropout1(tgt2)
        tgt = self.norm1(tgt)
        tgt2 = self.multihead_attn(
            query=self.with_pos_embed(tgt, query_pos),
            key=self.with_pos_embed(memory, pos),
            value=memory,
            attn_mask=memory_mask,
            key_padding_mask=memory_key_padding_mask,
        )[0]
        tgt = tgt + self.dropout2(tgt2)
        tgt = self.norm2(tgt)
        tgt2 = self.linear2(self.dropout(self.activation(self.linear1(tgt))))
        tgt = tgt + self.dropout3(tgt2)
        tgt = self.norm3(tgt)
        return tgt

其中，tgt一开始是全0的Tensor，将其6次经过TransformerDecoderLayer类。我不太理解，为什么将它加上位置编码，然后同时作为q、k、v传入自注意力，再作为q、k与作为v的特征图一起传入多头注意力中？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-04-28 03:04
关注
引自免费微信小程序：皆我百晓生

在Transformer模型中，tgt通常代表输入序列（target sequence），这个概念源于机器翻译任务，其中目标序列是你正在尝试预测的句子。但在其他计算机视觉应用中，比如分割、检测等，tgt可能代表的是一个空的、全零的张量，用于接收从编码器传递过来的信息，并通过解码器进行处理，最终生成相应的输出。

在这个特定的代码片段里，来自MaskFormer的TransformerDecoderLayer，tgt首先被添加了位置编码(pos_embed)，这一步是为了给模型提供关于输入序列中每个元素相对位置的信息。位置编码通常是通过学习得到的一组固定长度的向量，可以是绝对位置编码（告知模型每个位置的实际位置）或相对位置编码（告知模型元素间的相对距离）。这里使用with_pos_embed()函数为输入添加位置编码。

在自注意力模块中，q（query）、k（key）和v（value）都由tgt和query_pos（查询的位置信息）构建而来。这样做是因为自注意力层计算了输入序列中所有位置之间的关系，以便模型能够理解整个序列的上下文。因此，每个位置的查询不仅考虑其自身的值，还考虑序列中所有其他位置的信息。

接下来，自注意力层的输出与原始的tgt相加，然后通过一个归一化层（self.norm1()）进行规范化。这是常见的残差连接结构，有助于缓解梯度消失的问题。

之后，进入多头注意力模块，这里的查询仍然是带位置编码的tgt，而键和值则来自编码器输出的内存（memory）和对应的全局位置编码(pos)。这是因为多头注意力模块关注的是输入序列（tgt）与之前编码过的源序列（memory）之间的交互。这部分的目的是利用编码器捕获的全局信息来指导解码器的输出。

最后，经过一系列线性变换、激活函数以及额外的残差连接和归一化操作后，解码器产生最终的输出，这个输出会再次成为下一个时间步的输入，直到达到预设的最大解码步骤数或者满足某个终止条件。

总结一下，tgt在Transformer解码器中的角色是充当当前时间步的输入，它不断通过自我注意和跨模态注意来更新自身，逐步生成最终的输出。通过添加位置编码，模型能理解和利用输入序列的时间顺序信息。

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Transformer中的相对/绝对位置信息编码究竟怎么理解？ python 深度学习神经网络
2022-11-28 18:54

回答 1 已采纳在deep learning model处理位置信息时有如下2种想法： ① 想办法将位置信息融入到输入中，这构成了绝对位置编码的一般做法；② 想办法微调一下 Attention 结构，使得它有能力分辨
关于Swin Transformer官方代码中，WindowAttention模块中的self.proj的作用 transformer 深度学习计算机视觉
2023-02-13 14:41

回答 1 已采纳方案来自梦想橡皮擦狂飙组基于 GPT 编写的 “程秘” self.proj 是一个全连接层，在 SWIN Transformer 模型的 WindowAttention 模块中使用。它的作用是对
三维重建中，transformer是怎么学习2D图像的深度值的？人工智能机器学习计算机视觉
2022-12-08 15:46

回答 1 已采纳望采纳transformer在三维重建中学习2D图像的深度值通常是通过单目视觉来实现的。它会计算图像中物体之间的几何关系，并利用这些信息来估计深度值。对于训练集，Transformer并不对图像有特殊
综述｜计算机视觉中的注意力机制
2021-11-03 09:00

Wang_AI的博客 ↑ 点击蓝字关注AI派作者丨HUST小菜鸡@知乎来源丨https://zhuanlan.zhihu.com/p/146130215编辑丨极市平台导读Attention是一种资源分配的机...
transformer中，全连接层中的w需要训练么？人工智能机器学习深度学习
2022-12-12 17:20

回答 1 已采纳你说的全连接层的W指的是权重矩阵吧，肯定是要训练的。神经网络训练的主要目的就是更新权重矩阵的参数
transformer语义分割能通过旋转进行数据增广吗？深度学习神经网络计算机视觉
2023-03-17 01:16

回答 2 已采纳参考GPT和自己的思路：是的，Transformer语义分割可以通过旋转进行数据增广。由于Transformer缺乏卷积的位置偏置，因此我们可以使用旋转、反转等方法来增加数据的多样性。在训练过程中，
Transformer是哪一环节开始计算损失更新权值啊？ transformer 人工智能深度学习
2022-12-07 12:00

回答 1 已采纳可以参考下ChatGPT的答案：Transformer开始计算损失更新权值的环节是在完成训练之后，利用反向传播算法（Backpropagation）计算梯度，再根据梯度来更新权值参数。
深度学习 计算机视觉中的注意力机制
2021-11-02 17:14

RyanC3的博客 计算机视觉中的注意力机制前言self attention空间域注意力（spatial transformer network, STN）通道注意力（Channel Attention, CA）SE-NetECA-NetNon-Local位置注意力（position-wise attention）卷积注意力模块...
fast point transformer训练数据集时缺少cuda_sparse_ops 深度学习计算机视觉
2022-08-01 11:28

回答 1 已采纳这个一般是和显卡相关的一些东西，看名字应该是文件项目下面的用setup跑出来的文件会这么命名。你这个应该是个开源项目吧，仔细看下readme文件，里面一般会将怎么install项目并且运行demo，你
请给我详细描述一下我的毕设到底是要做什么？ transformer 有问必答计算机视觉语音识别
2022-08-04 11:18

回答 3 已采纳 Kinetics-400数据集，video transformer，你的任务我理解就是这个数据集的任务，多分类，你们教授也是想让你看看这篇论文，在这基础上改进。
datax transformer 过滤时间问题 python transformer 运维
2021-12-28 16:04

回答 1 已采纳特殊符号问题？
动手学CV-Pytorch计算机视觉使用transformer实现OCR字符识别
2024-05-02 22:37

这个巧妙的博客动手学CV-Pytorch计算机视觉使用transformer实现OCR字符识别
基于swin transformer的毕设 transformer
2022-11-15 11:37

回答 3 已采纳是有足够时间让你完成。首先swin的理论还是基于卷积神经网络，其次swin的大热，也让它的源码处处可见可查。
3万字长文带你轻松入门视觉Transformer
2021-06-04 00:47

人工智能与算法学习的博客 0 摘要transformer结构是google在17年的Attention Is All You Need论文中提出，在NLP的多个任务上取得了非常好的效果，可以说目前NLP发展都离不开...
第二十七章解读Transformer_车道线检测中的Transformer(车道线感知)
2023-11-08 12:11

小酒馆燃着灯的博客 ViT模型（特别是Large版本）在各种任务上的性能通常优于传统的ResNet模型，但计算开销也相应更高。- 模型的宽度和深度对性能有明显的...总的来说，Vision Transformer在多个数据集上表现出色，尽管它们的计算需求较高。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月28日

悬赏问题

¥15 stc15f2k60s2单片机关于流水灯，时钟，定时器，矩阵键盘等方面的综合问题
¥15 YOLOv8已有一个初步的检测模型，想利用这个模型对新的图片进行自动标注，生成labellmg可以识别的数据，再手动修改。如何操作？
¥30 NIRfast软件使用指导
¥20 matlab仿真问题，求功率谱密度
¥15 求micropython modbus-RTU 从机的代码或库？
¥15 django5安装失败
¥15 Java与Hbase相关问题
¥15 后缀 crn 游戏文件提取资源
¥20 bash代码推送不上去 git fetch origin master #失败了
¥15 LOL外服加入了反作弊系统，现在游戏录像rofl文件离线都无法打开

计算机视觉中transformer的tgt究竟如何理解呢

5条回答 默认 最新

问题事件

悬赏问题

5条回答默认最新