Transformer在预测阶段解码器的输入是什么？就只输入一个BOS开始符号吗？

最近学了transformer框架
在训练过程解码器的输入都是正确标签加上掩码
那预测阶段呢或者说实际应用阶段解码器输入应该是什么呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-07-15 14:24
关注
请看👉 ：还在魔改Transformer结构吗？微软&中山大学开源超强的视觉位置编码，涨点显著
以下回答由chatgpt基于相关博客总结生成:
根据问题描述，Transformer在训练过程中，解码器的输入是正确的标签加上掩码。在预测阶段或者实际应用阶段，解码器的输入应该是通过前一个时间步的解码器输出来生成的。具体的解决方案如下：

Step 1: 准备Transformer模型首先，需要准备一个Transformer模型。你可以使用现成的模型库，比如transformers库，或者根据自己的需求实现一个Transformer模型。

Step 2: 准备解码器输入在预测阶段，解码器的初始输入是一个特殊的标记，比如开始标记<sos>。接下来的每一个时间步，解码器的输入都是通过前一个时间步的解码器输出来生成的。所以，需要一个循环来生成解码器的输入序列。

Step 3: 生成解码器输入序列使用一个循环来生成解码器的输入序列，直到达到预定的序列长度或者遇到结束标记<eos>。在每个时间步，将前一个时间步的解码器输出作为当前时间步的输入，并将当前时间步的输出添加到结果序列中。

下面是一个示例代码，用来生成解码器的输入序列：

# 准备Transformer模型 model = TransformerModel() # 准备解码器输入 decoder_input = torch.tensor([<sos>]) # 初始输入为开始标记 max_length = 100 # 设置最大序列长度 result = [] # 保存解码器的输出序列 # 生成解码器输入序列 for i in range(max_length): # 使用前一个时间步的解码器输出作为当前时间步的输入 decoder_output = model.decoder(decoder_input) # 获取当前时间步的输出 output_token = decoder_output.argmax(dim=-1) # 将当前时间步的输出添加到结果序列中 result.append(output_token.item()) # 检查是否达到结束标记 if output_token.item() == <eos>: break # 更新解码器输入为当前时间步的输出 decoder_input = output_token # 将结果序列转换为字符串或标签的形式 result = convert_to_string(result)

在上述代码中，首先准备了一个Transformer模型model，然后设置了一个循环来生成解码器的输入序列。在每个时间步中，使用前一个时间步的解码器输出作为当前时间步的输入，然后获取当前时间步的输出，并将其添加到结果序列中。当输出为结束标记时，循环停止。最后，可以将结果序列转换为字符串或标签的形式。

请注意，上述代码仅为示例，实际应用中可能需要根据具体情况进行调整和优化。另外，具体的实现方式也可能因不同的Transformer模型库而有所差异。以上是根据问题描述和参考资料给出的一个解决方案，希望能帮到你。如果有任何问题，请随时提问。
本回答被专家选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

Transformer是哪一环节开始计算损失更新权值啊？ transformer 人工智能深度学习
2022-12-07 12:00

回答 1 已采纳可以参考下ChatGPT的答案：Transformer开始计算损失更新权值的环节是在完成训练之后，利用反向传播算法（Backpropagation）计算梯度，再根据梯度来更新权值参数。
请给我详细描述一下我的毕设到底是要做什么？ transformer 有问必答计算机视觉语音识别
2022-08-04 11:18

回答 3 已采纳 Kinetics-400数据集，video transformer，你的任务我理解就是这个数据集的任务，多分类，你们教授也是想让你看看这篇论文，在这基础上改进。
transformer语义分割能通过旋转进行数据增广吗？深度学习神经网络计算机视觉
2023-03-17 01:16

回答 2 已采纳参考GPT和自己的思路：是的，Transformer语义分割可以通过旋转进行数据增广。由于Transformer缺乏卷积的位置偏置，因此我们可以使用旋转、反转等方法来增加数据的多样性。在训练过程中，
从零开始构建大语言模型（MEAP）
2024-04-29 01:46

绝不原创的飞龙的博客这样的模型通常具有数百亿甚至数百亿个参数，这些参数是网络中的可调权重，在训练过程中进行优化，以预测序列中的下一个词。下一个词的预测是合理的，因为它利用了语言固有的顺序性质来训练模型，使其理解文本中的上...
pytorch的一个报错该如何解决？ pytorch transformer 图像处理
2023-03-03 16:34

回答 2 已采纳小魔女参考了bing和GPT部分内容调写:如果你使用的是pytorch1.5.1版本，那么你应该安装apex包的1.0.1版本。安装不对的话，可能会出现报错，比如模型训练时出现RuntimeError
三维重建中，transformer是怎么学习2D图像的深度值的？人工智能机器学习计算机视觉
2022-12-08 15:46

回答 1 已采纳望采纳transformer在三维重建中学习2D图像的深度值通常是通过单目视觉来实现的。它会计算图像中物体之间的几何关系，并利用这些信息来估计深度值。对于训练集，Transformer并不对图像有特殊
Transformer中的相对/绝对位置信息编码究竟怎么理解？ python 深度学习神经网络
2022-11-28 18:54

回答 1 已采纳在deep learning model处理位置信息时有如下2种想法： ① 想办法将位置信息融入到输入中，这构成了绝对位置编码的一般做法；② 想办法微调一下 Attention 结构，使得它有能力分辨
【从零开始的NLP】编码器-解码器结构实现机器翻译（代码解读向）
2024-06-27 19:25

卤盐卤蛋_RyanRDan的博客本文主要讲解的是基于 pytorch 结构的编码器-解码器结构的实现，本文为实验课程作业性质，且以讲解为主，代码占较大篇幅。
transformer中，全连接层中的w需要训练么？人工智能机器学习深度学习
2022-12-12 17:20

回答 1 已采纳你说的全连接层的W指的是权重矩阵吧，肯定是要训练的。神经网络训练的主要目的就是更新权重矩阵的参数
关于#transformer#的问题：transformer在SISR的问题，训练时图像小，test时可以直接对高分辨率图像处理 pytorch transformer 超分辨率重建
2023-02-01 19:33

回答 1 已采纳 Transformer模型在SISR问题中的特殊之处在于它使用了self-attention机制来捕捉图像中的长距离依赖关系，因此它可以处理任意大小的图像。在训练时使用的小图像可以避免内存问题，但是训
transformer使用 python 有问必答
2022-10-08 12:33

回答 3 已采纳意思是没有这个do_sample关键字
编码器-解码器(seq2seq)
2022-04-26 17:12

CityD的博客文章目录1、编码器解码器架构1.1、概念1.2、代码1.2.1、编码器(Encoder)1.2.2、解码器(Decoder)1.2.3、合并编码器和解码器2、seq2seq模型2.1、编码器2.2、解码器2.3、编码器-解码器细节2.4、训练&推理2.5 评价...
当使用transformer模型时，如果语料里的数据的长度超过设置的max_length的时候，怎么解决？ opencv
2022-12-09 09:28

回答 1 已采纳如果这种数据占比较少，直接舍去，如果占比较多，可以尝试使用transformer-xl模型。
NLP——基于Transformer实现机器翻译（日译中）
2024-06-23 01:10

勿念我，勿忘我的博客 Transformer模型是一种深度学习模型，由Vaswani等人在2017年提出，主要用于自然语言处理（NLP）任务。它的核心思想是通过自注意力（Self-Attention）机制来捕捉输入数据之间的全局依赖关系，从而能够处理序列数据，...
GAN（Generative Adversarial Network）作为深度学习领域中的一种生成模型，近年来在图像、音频等多种模态数据上取得了良好的效果。其核心思想就是通过博弈论中的对抗训练方式
2023-07-31 00:26

AI天才研究院的博客其核心思想就是通过博弈论中的对抗训练方式，让两个网络（一个生成网络G和一个判别网络D）互相竞争，不断提升自我认为的分布的能力。本文中，作者将生成对抗网络应用于语音合成任务之中，并以子词单元的方式构建序列...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家已采纳回答 7月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月15日

悬赏问题

¥15 如何让子窗口鼠标滚动独立，不要传递消息给主窗口
¥15 如何能达到用ping0.cc检测成这样？如图
¥15 关于#DMA固件#的问题，请各位专家解答！
¥15 matlab生成的x1图不趋于稳定，之后的图像是稳定的水平线
¥15 请问华为OD岗位的内部职业发展通道都有哪些，以及各个级别晋升的要求
¥20 微信小程序 canvas 问题
¥15 系统 24h2 专业工作站版，浏览文件夹的图库，视频，图片之类的怎样删除？
¥15 怎么把512还原为520格式
¥15 MATLAB的动态模态分解出现错误，以CFX非定常模拟结果为快照
¥15 求高通平台Softsim调试经验

Transformer在预测阶段解码器的输入是什么？就只输入一个BOS开始符号吗？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新