Transformer中的相对/绝对位置信息编码究竟怎么理解？

不清楚相对位置信息和绝对位置信息是如何表示的、在实际的任务中有什么利弊？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
ShowMeAI 2022-12-03 20:26
关注
在deep learning model处理位置信息时有如下2种想法：

① 想办法将位置信息融入到输入中，这构成了绝对位置编码的一般做法；
② 想办法微调一下 Attention 结构，使得它有能力分辨不同位置的 Token，这构成了相对位置编码的一般做法。

可以参考如下资料中的形象解释：

Transformer 的绝对位置编码和相对位置编码 Transformer 恰好属于对位置不敏感的结构，所以我们需要额外给 Transformer 带上每一个字所在的位置。本文介绍了绝对位置编码和相对位置编码两种方式。 https://www.qin.news/jue-dui-wei-zhi-bian-ma-he-xiang-dui-wei-zhi-bian-ma/
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Transformer中的位置编码：绝对位置编码、相对位置编码与旋转位置编码_transformer位置编码
2025-08-29 17:58

AI大模型-搬运工的博客本文系统介绍了Transformer模型中三种主要位置编码方法：绝对位置编码、相对位置编码和旋转位置编码。绝对位置编码通过正弦余弦函数为序列每个位置生成固定向量，实现简单但长距离依赖表现有限；相对位置编码则关注...
Transformer系列：快速通俗理解Transformer的位置编码
2024-06-16 07:30

大模型入门学习的博客设置max_len为每个句子的最大长度为50，d_emb为每个词的embedding的维度为256，最终得到一个[50, 256]的位置编码矩阵，每一行代表一个位置的位置编码结果，每一列代表某个词在某个位置编码分量上的值。
大模型系列：快速通俗理解Transformer旋转位置编码RoPE
2024-06-15 11:05

AGI大模型学习的博客位置编码知识准备旋转位置编码的本质和计算流程旋转位置编码如何表达相对位置信息旋转位置编码的源码分析旋转位置编码的推导。
Transformer模型详解之位置编码：在TensorFlow 2.9中动手实现
2025-12-31 12:12

爱你不会累的博客深入解析Transformer中位置编码的数学原理与设计思想，基于TensorFlow 2.9动手实现正弦式位置编码，并结合Docker环境快速验证。通过可视化与工程优化技巧，揭示其在长序列建模中的泛化能力与实际应用要点。
彻底搞懂视觉Transformer：pytorch-image-models中3种位置编码实现对比
2025-10-02 04:18

凌骊洵Perfect的博客你是否在训练视觉Transformer（Vision Transformer, ViT）时遇到过这些问题？输入图像尺寸变化导致位置编码失效、预训练模型迁移时精度骤降、自定义位置编码与现有模型不兼容？本文将系统解析[pytorch-image-models]...
Transformer数学推导——Q33 分析正弦编码的频率衰减对长程依赖建模的影响
2025-04-29 15:18

墨顿的博客正弦编码的多尺度位置信息融合能力，使模型在生成后续章节时，能利用低维度编码把握当前章节内的情节逻辑，利用高维度编码关联前文的世界观设定和角色关系，确保故事整体连贯。在生成文档摘要时，虽然高维度编码存在...
Transformer位置编码改进提升Qwen-Image-Edit-2509空间感知能力
2025-12-15 20:09

Randy Rhoads的博客 Qwen-Image-Edit-2509通过改进Transformer位置编码，引入二维位置嵌入、相对位置偏置和多尺度融合策略，显著增强模型对图像空间结构的理解能力，解决指令与编辑结果错位问题，提升高分辨率图像编辑的精确性与稳定性...
大语言模型原理基础与前沿相对位置编码
2024-07-17 00:24

光子AI的博客大语言模型原理基础与前沿相对位置编码作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming 关键词：相对位置编码,Transformer,序列模型,自然语言处理,NLP 1. 背景介绍
理解Transformer的整体架构与关键技术
2025-09-13 20:07

AI大模型-海文的博客 Transformer的整体架构 Transformer的整体结构可分为输入模块、编码器模块、解码器模块和输出模块，如下图所示： Transformer架构可以描述为：通过词嵌入和位置编码，再结合自注意力机制获取输入序列的全局信息，并...
Transformer到底是个啥啊？一文逐层分解Transformer
2025-09-25 14:22

写编程的木木的博客 1.1.2 位置 Embedding 在Transformer模型中，除词Embedding外，还需引入位置Embedding（PE）以表征单词在句子中的位置信息。由于Transformer摒弃了RNN结构，采用全局注意力机制，无法直接获取单词的顺序信息，而这...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月28日

Transformer中的相对/绝对位置信息编码究竟怎么理解？

Transformer中的相对/绝对位置信息编码究竟怎么理解？

不清楚相对位置信息和绝对位置信息是如何表示的、在实际的任务中有什么利弊？

1条回答 默认 最新

问题事件

1条回答默认最新