transformer中的Embeding是否应该将每个词向量设置成模相等的向量？

最近在学习transformer的时候遇到了一个问题，Q矩阵和K矩阵点乘是在反应两个向量的相似度，点乘的结果越大越是相似。

点乘的公式：a*b= |a| * |b| * cosθ

由点乘的公式可知，点乘的结果不仅仅是由相似度（也就是cosθ）决定，还由向量的模的大小决定的，如果模很大，即使向量夹角很大（也就是很不相似），得出来的结果也有可能很大，那么这个结果就不能反应这个两个向量是否相似了。是不是应该在Embeding的时候，将所有的词向量的模设置成大小一样的？这样计算的结果才能真正的反映向量之间的相似度。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

transformer中，全连接层中的w需要训练么？人工智能机器学习深度学习
2022-12-12 17:20

回答 1 已采纳你说的全连接层的W指的是权重矩阵吧，肯定是要训练的。神经网络训练的主要目的就是更新权重矩阵的参数
三维重建中，transformer是怎么学习2D图像的深度值的？人工智能机器学习计算机视觉
2022-12-08 15:46

回答 1 已采纳望采纳transformer在三维重建中学习2D图像的深度值通常是通过单目视觉来实现的。它会计算图像中物体之间的几何关系，并利用这些信息来估计深度值。对于训练集，Transformer并不对图像有特殊
Transformer是哪一环节开始计算损失更新权值啊？ transformer 人工智能深度学习
2022-12-07 12:00

回答 1 已采纳可以参考下ChatGPT的答案：Transformer开始计算损失更新权值的环节是在完成训练之后，利用反向传播算法（Backpropagation）计算梯度，再根据梯度来更新权值参数。
精读transformer模型（limu）
2023-12-04 15:11

iiimZoey的博客循环层是要我们知道，如果你的序列是长的 N 话，它就一个一个做运算，每个里面它的主要的计算就是一个 N 乘以 N 的矩阵，一个你就是一个 dance layer 然后再乘以你一个长为 D 的一个输入，所以它是一个 N 平方，然后...
当使用transformer模型时，如果语料里的数据的长度超过设置的max_length的时候，怎么解决？ opencv
2022-12-09 09:28

回答 1 已采纳如果这种数据占比较少，直接舍去，如果占比较多，可以尝试使用transformer-xl模型。
Transformer中的相对/绝对位置信息编码究竟怎么理解？ python 深度学习神经网络
2022-11-28 18:54

回答 1 已采纳在deep learning model处理位置信息时有如下2种想法： ① 想办法将位置信息融入到输入中，这构成了绝对位置编码的一般做法；② 想办法微调一下 Attention 结构，使得它有能力分辨
关于Swin Transformer官方代码中，WindowAttention模块中的self.proj的作用 transformer 深度学习计算机视觉
2023-02-13 14:41

回答 1 已采纳方案来自梦想橡皮擦狂飙组基于 GPT 编写的 “程秘” self.proj 是一个全连接层，在 SWIN Transformer 模型的 WindowAttention 模块中使用。它的作用是对
【Transformer从零开始代码实现 pytoch版】（一）输入部件：embedding+positionalEncoding
2023-11-07 18:01

辰阳星宇的博客要想做成这种变换就需要每一个[1, d_model]的向量来实现形状变化，[max_len, 1] * [1, d_model] == > [max_len, d_model] （2）除了形状变换之外，还需要将自然数的绝对位置编码缩小，有助于后续梯度下降时候可以更...
java导出指定excel模板是XLSTransformer报错 maven 有问必答
2021-04-08 17:54

回答 3 已采纳导出到Excel一般用poi技术吧比较成熟方便
pytorch的一个报错该如何解决？ pytorch transformer 图像处理
2023-03-03 16:34

回答 2 已采纳小魔女参考了bing和GPT部分内容调写:如果你使用的是pytorch1.5.1版本，那么你应该安装apex包的1.0.1版本。安装不对的话，可能会出现报错，比如模型训练时出现RuntimeError
transformer语义分割能通过旋转进行数据增广吗？深度学习神经网络计算机视觉
2023-03-17 01:16

回答 2 已采纳参考GPT和自己的思路：是的，Transformer语义分割可以通过旋转进行数据增广。由于Transformer缺乏卷积的位置偏置，因此我们可以使用旋转、反转等方法来增加数据的多样性。在训练过程中，
详解注意力机制和Transformer
2023-01-31 20:50

zyw2002的博客本文的学习路线： Attention 从生物学的角度引入到计算机视角，介绍了什么是Attention ▶️介绍...▶️ 介绍了Attention Model中两个常用的注意力评分函数 ▶️ 从基础的Attention引入到Self-Attention 和Multihe
datax transformer 过滤时间问题 python transformer 运维
2021-12-28 16:04

回答 1 已采纳特殊符号问题？
Transformer 代码详解(Pytorch版)
2022-08-05 23:53

@左左@右右的博客基于上一篇经典网络架构学习-Transformer的学习，今天我们来使用pytorch 搭建自己的transformer模型，加深对transformer的理解，不仅在NLP领域绕不开transformer，而且在CV领域也是很火热，很多模型都用到了注意力...
Transformer输入嵌入：Input Embedding
2021-11-25 13:16

m0_61899108的博客学习 Transformer 该从那里起步呢？首先，当然是膜拜CV大佬，向大佬学习，这位大佬分析细致入理，写文幽默风趣，本文也是从这位大佬这里搬过来的（侵删）。这是大佬的知乎号：CW不要無聊的風格。去繁就简，咱们...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 12月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月21日

悬赏问题

¥20 蓝牙耳机怎么查看日志
¥15 Fluent齿轮搅油
¥15 八爪鱼爬数据为什么自己停了
¥15 交替优化波束形成和ris反射角使保密速率最大化
¥15 树莓派与pix飞控通信
¥15 自动转发微信群信息到另外一个微信群
¥15 outlook无法配置成功
¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏

transformer中的Embeding是否应该将每个词向量设置成模相等的向量？

0条回答 默认 最新

问题事件

悬赏问题

0条回答默认最新