Transform的真实值，是输入什么的？

本人是刚接触深度学习不久，想做一个翻译程序，模型搭好了，词表也做好了，但是这个训练时y的真实值，该怎么转换输入？有人能指点我一下吗😭

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

7条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
一杯年华@编程空间 2025-06-08 09:15
关注
一杯年华@编程空间帮您解答，本答案结合 ChatGPT4.0和DeepSeek整理

我曾经遇到过类似的问题，当时也是在使用Transformer模型进行翻译任务时，对训练时目标真实值（y）的输入转换方式感到困惑。结合你提供的代码和问题描述，下面为你分析并给出解决方案。

问题分析

你的目标是构建一个翻译程序，目前已搭建好Transformer模型并完成词表构建，但不清楚训练时如何将目标语言真实值（y）转换为模型可接收的输入。核心问题在于目标序列的预处理流程（如分词、编码、对齐）以及模型训练时标签的设置方式。

解决方案

方案1：基于词表的端到端编码（通用方案）

思路：
将目标语言句子通过词表分词为token序列，再转换为模型所需的整数编码，并在训练时作为labels传入模型。需注意目标序列需进行左移处理（即解码器输入为[SOS]+目标序列[:-1]，标签为目标序列[1:]+[EOS]），以避免自回归模型提前看到完整标签。

关键步骤：

目标序列分词与编码：使用已训练的词表对目标语言句子进行分词，转换为token IDs（需包含特殊 tokens 如[END]）。
生成解码器输入与标签：
解码器输入：在目标序列前添加起始符[CLS]，并截断到最大长度。
标签：在目标序列后添加结束符[END]，并与解码器输入对齐（长度一致）。

模型训练时传入标签：将处理后的标签作为labels参数传入模型的前向传播函数。

代码片段：

# 假设已有分词器 tokenizer 和目标句子列表 tgt_sentences # 1. 对目标句子进行编码（含结束符） tgt_tokenized = [tokenizer.encode(sent, add_special_tokens=False) for sent in tgt_sentences] # 不添加默认特殊 token tgt_labels = [] decoder_inputs = [] for tokens in tgt_tokenized: # 标签：末尾添加 [END] label = tokens + [tokenizer.token_to_id("[END]")] # 解码器输入：开头添加 [CLS]，并左移一位（标签是解码器输入的下一个 token） decoder_input = [tokenizer.token_to_id("[CLS]")] + tokens tgt_labels.append(label) decoder_inputs.append(decoder_input) # 2. 转换为张量并填充到固定长度 max_len = max(len(seq) for seq in tgt_labels) tgt_labels = [seq + [tokenizer.pad_token_id]*(max_len - len(seq)) for seq in tgt_labels] decoder_inputs = [seq + [tokenizer.pad_token_id]*(max_len - len(seq)) for seq in decoder_inputs] tgt_labels = torch.tensor(tgt_labels) decoder_inputs = torch.tensor(decoder_inputs) # 3. 训练时传入模型（假设模型输入为 src_ids, decoder_inputs, labels=tgt_labels） outputs = model(src_ids, decoder_input_ids=decoder_inputs, labels=tgt_labels) loss = outputs.loss

方案2：使用Teacher Forcing（简化方案，适合新手）

思路：
直接将目标序列的完整token编码作为标签，利用Teacher Forcing机制在训练时将目标序列前一时刻的输出作为下一时刻的输入。此方案无需手动处理解码器输入，模型会自动处理对齐。

关键步骤：

目标序列编码：直接对目标句子进行分词和编码（包含起始符和结束符）。
标签设置：将编码后的目标序列作为labels，同时将其作为解码器输入（需注意移除最后一个 token，避免标签泄露）。

代码片段：

# 假设 tgt_sentences 为目标句子列表 tgt_encoded = tokenizer(tgt_sentences, padding=True, truncation=True, return_tensors="pt") # 解码器输入：目标序列（不含最后一个 token） decoder_input_ids = tgt_encoded.input_ids[:, :-1] # 标签：目标序列（不含第一个 token，且填充值需设为 -100 以忽略损失计算） labels = tgt_encoded.input_ids[:, 1:].masked_fill(tgt_encoded.input_ids[:, 1:] == tokenizer.pad_token_id, -100) # 训练时传入模型 outputs = model(src_input_ids, decoder_input_ids=decoder_input_ids, labels=labels) loss = outputs.loss

最优方案讲解：方案1（端到端编码）

优势：

灵活性高，可自定义特殊 token 的位置和序列处理逻辑。
适用于复杂场景（如多语言翻译、长文本截断）。
与Transformer的自回归机制完全对齐，符合模型设计原理。

核心逻辑：
通过显式构建解码器输入和标签的左移关系，确保模型在训练时不会提前接触到目标序列的未来信息。例如，目标序列为[A, B, C, END]，则解码器输入为[CLS, A, B, C]，标签为[A, B, C, END]，模型通过预测每个位置的下一个 token 进行学习。

希望以上方案能帮你解决问题！如果对代码实现或原理有疑问，可以继续留言。请楼主采纳～
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(6条)

报告相同问题？

关注问题

人工智能---什么是Transformer?
2024-04-27 10:12

智能汽车人的博客比如AI写作，AI画图，AI编曲，AI制作视频，与人类竞争的岗位将越来越多，就在前不久，苹果宣布放弃造车，将重点投入AI领域，可见未来AI有一个巨大的发展空间。因此，本篇博客给大家介绍AI的一个基础研究：...
【人工智能的数学基础】二值图像的距离变换(Distance Transform)
2023-06-26 01:54

光子AI的博客 *距离变换(Distance Transform)**是一种针对二值图像（背景:0, 前景:1）的变换算法，把图像中的每个像素值替换为该像素到前景像素的最近距离。通过距离变换能够基本找出二值图像中前景形状的骨架。
人工智能、机器学习、深度学习之间的关系是什么？如何应用？
2022-03-23 11:22

一个写湿的程序猿的博客 人工智能、机器学习、深度学习之间的关系是什么？如何应用？00 导读01 机器学习分类1. 监督式学习2. 无监督式学习3. 强化学习02 神经网络与深度学习03 深度学习的应用 00 导读 2012年以后，信息爆炸带来的数据量猛增...
AI人工智能在图像处理中的独特优势体现
2025-04-28 21:22

光子AI的博客 人工智能，尤其是深度学习技术的发展，推动图像处理进入智能化阶段。本文聚焦AI在图像处理中的独特优势，通过技术原理剖析、算法实现细节、数学模型推导和工程案例分析，揭示AI如何突破传统方法的瓶颈，实现从“人工...
AI人工智能与计算机视觉：打造智能视觉系统
2025-04-07 01:31

光子AI的博客本文旨在为读者提供关于AI人工智能与计算机视觉技术的全面理解，特别是如何将这些技术应用于构建智能视觉系统。我们将涵盖从基础理论到实际应用的完整知识体系，包括核心算法原理、数学模型、代码实现以及行业应用...
什么？是Transformer位置编码
2021-08-11 11:05

kaiyuan_sjtu的博客作者：陈安东，中央民族大学，Datawhale成员过去的几年里，Transformer大放异彩，在各个领域疯狂上分。它究竟是做什么，面试常考的Transformer位置编码暗藏什么玄机？本...
AI是如何换装的？
2025-09-09 15:17

人工之梦的博客例如，一些AI主播、AI模特的形象都是通过AI换装技术生成的，展现出各种风格的穿搭效果。电影、短视频制作中，AI换装可以帮助演员快速切换服装风格，甚至在后期直接修改服饰，而不需要额外拍摄补充镜头。例如，许多...
AI作画：AI人工智能时代艺术创作的新途径
2025-04-18 14:26

光子AI的博客 AI作画作为人工智能与艺术创作相结合的新兴领域，其目的在于探索利用人工智能技术为艺术创作带来新的可能性和创作方式。本文章的范围涵盖了AI作画的核心概念、算法原理、数学模型、实际应用案例以及未来发展趋势等...
掌握AI人工智能领域数据分析，开启新征程
2025-07-05 10:10

AIGC应用创新大全的博客如果AI模型是一位“厨师”，那么数据就是“食材”，数据分析就是“食材处理”——不新鲜的食材要扔掉（清洗异常值），大块的食材要切碎（特征工程），不同食材要搭配好（数据整合），最后厨师才能做出美味的“AI菜品...
AI人工智能与图像处理技术的协同发展
2025-04-06 19:10

光子AI的博客本文旨在全面解析人工智能(AI)与图像处理技术协同发展的技术原理、实现方法和应用场景。AI技术在图像处理领域的典型应用深度学习与传统图像处理算法的融合计算机视觉系统的架构设计实际工程实现中的挑战和解决方案...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 6月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月8日

Transform的真实值，是输入什么的？

7条回答 默认 最新

问题分析

解决方案

方案1：基于词表的端到端编码（通用方案）

方案2：使用Teacher Forcing（简化方案，适合新手）

最优方案讲解：方案1（端到端编码）

问题事件

7条回答默认最新