Transformer

有没有佬知道Transformer中，Decoder最开始接收的输入信息是从哪儿来的？下图红框里那部分的输入（outputs）

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-10-14 09:23
关注
【以下回答由 GPT 生成】

问题修改后: Transformer中的Decoder的初始输入是从哪里来的？

解答：在Transformer的Decoder部分，最开始接收的输入信息来自于两个地方：一是来自于Encoder部分的输出信息，二是来自于之前的预测结果。

具体的解决方案如下：

首先，我们需要明确Transformer的整体架构。Transformer由Encoder和Decoder两个部分组成，其中Encoder负责将输入序列进行编码，Decoder负责将编码后的信息进行解码和生成输出序列。

在Encoder部分，输入的序列经过一个Embedding层进行嵌入操作，然后再经过一系列的Multi-Head Attention和Feed-Forward Network层进行处理。最后，Encoder的输出结果将作为Decoder的初始输入。

在Decoder部分，初始输入首先经过一个Embedding层进行嵌入操作，然后再与Encoder的输出结果进行连接操作。在这里需要使用到一个技巧，即将Encoder的输出结果进行shift right操作，即将每个位置的值向右移动一个位置，这是为了确保在Decoder的每一个位置，都只能看到它之前的位置的信息。

接下来，Decoder的输入结果将经过一系列的Multi-Head Attention和Feed-Forward Network层进行处理，最终输出结果作为下一个时刻的输入。

以下是一个简化的代码示例，展示了如何构建Transformer中的Decoder，并展示了初始输入的来源和处理过程：

import torch import torch.nn as nn class TransformerDecoder(nn.Module): def __init__(self): super(TransformerDecoder, self).__init__() # 初始化相关操作，省略... def forward(self, encoder_outputs, decoder_inputs): # 对encoder_outputs进行shift right操作 shifted_encoder_outputs = torch.cat([torch.zeros_like(encoder_outputs[:, :1]), encoder_outputs[:, :-1]], dim=1) # 将shifted_encoder_outputs和decoder_inputs进行连接 inputs = torch.cat([shifted_encoder_outputs, decoder_inputs], dim=2) # 处理输入序列 # 省略... # 返回处理后的结果作为下一个时刻的输入 return outputs

需要注意的是，上述代码示例是一个简化的版本，相关细节部分可能被省略了。在实际应用中，通常还会涉及到更多的细节处理和参数调整。

希望以上解答能够帮助到您，如果有任何疑问，请随时追问。

【相关推荐】

您可以看一下七月在线老师的Transformer与Bert特训课程中的解码器Decoder小节
除此之外, 这篇博客: Transformer实战中的 Decoder 部分也许能够解决你的问题。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

transformer人工智能的底层逻辑.zip
2023-08-04 17:33

transformer人工智能的底层逻辑 transformer人工智能的底层逻辑 transformer人工智能的底层逻辑 transformer人工智能的底层逻辑 transformer人工智能的底层逻辑
人工智能---什么是Transformer?
2024-04-27 10:12

智能汽车人的博客 Transformer是一种强大的神经网络架构，最初由Google的研究人员在论文《Attention is All You Need》中提出，用于自然语言处理任务，特别是在机器翻译方面取得了巨大成功。Transformer的核心思想是完全基于自注意力...
一文读懂Transformer：开启人工智能新纪元的神奇架构
2025-07-07 16:34

大雨淅淅的博客 Transformer自2017年问世以来，已成为人工智能领域的革命性架构。本文全面剖析了Transformer的技术原理、应用现状及发展前景。核心技术方面，Transformer通过自注意力机制实现并行计算和长距离依赖处理，克服了传统...
基于Transformer的生成式人工智能模型
2024-12-10 13:07

hepucuncao的博客生成式AI是人工智能的一个分支，可以根据已经学习的内容生成新的内容。它从现有的内容中学习的过程叫做训练，训练的结果是创建一个统计模型。当用户给出提示词时，生成式AI将会使用统计模型去预测答案，生成新的文本...
人工智能各领域跨界能手——Transformer
2023-03-17 14:20

未来GIS实验室的博客导读：Transformer源自于AI自然语言处理任务；在计算机视觉领域，近年来Transformer逐渐替代CNN成为一个热门的研究方向。此外，Transformer在文本、语音、视频等多模态领域也在崭露头角。本文对Transformer从诞生到...
Transformer模型：人工智能界的全能跨界王
2024-07-26 20:09

fengbeely的博客 Transformer凭借强大特征提取能力补齐了传统RNN在NLP领域中的诸多短板，其多种衍生模型在NLP任务上表现出色。此外，随着CNN模型的发展从成熟走向瓶颈，Transformer为CV领域注入了新鲜血液，从分类到分割，从图像到...
一文弄懂--人工智能中的Transformer是什么?
2025-05-14 16:46

onnx的博客 Transformer是一种革命性的神经网络架构，主要用于处理序列数据，如自然语言处理（NLP）任务。它通过自注意力机制同时处理...其成功推动了大规模语言模型（如GPT和BERT）的发展，并在多模态AI系统中展现出巨大潜力。T
Transformer技术深度剖析：AI语言处理的新纪元
2024-01-20 14:08

散一世繁华，颠半世琉璃的博客 Transformer技术深度剖析：AI语言处理的新纪元
人工智能（二）-Transformer模型
2024-05-22 19:28

胖当当技术的博客上篇文章以对话模式为例讲了目前人工智能的整体架构，但是大模型依然有很多细节问题，这里作者讲一讲目前的Transformers模型原理。
AI - Transformer架构工作原理
2024-05-24 09:57

Lizzy_Fly的博客 Transformer架构工作原理
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月13日

Transformer

1条回答 默认 最新

问题事件

1条回答默认最新