为什么transformer的embedding和位置编码后都要有一个pos_drop？

为什么transformer的embedding和位置编码后都要有一个pos_drop？
self.pos_drop = nn.Dropout(p=drop_rate)

x = self.embedding(x)
x += self.pos_embed
x = self.pos_drop(x)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-11-17 22:28
关注
请看👉 ：transformer中pos embedding原理
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Transformer中的相对/绝对位置信息编码究竟怎么理解？ python 深度学习神经网络
2022-11-28 18:54

回答 1 已采纳在deep learning model处理位置信息时有如下2种想法： ① 想办法将位置信息融入到输入中，这构成了绝对位置编码的一般做法；② 想办法微调一下 Attention 结构，使得它有能力分辨
Transformer是哪一环节开始计算损失更新权值啊？ transformer 人工智能深度学习
2022-12-07 12:00

回答 1 已采纳可以参考下ChatGPT的答案：Transformer开始计算损失更新权值的环节是在完成训练之后，利用反向传播算法（Backpropagation）计算梯度，再根据梯度来更新权值参数。
pytorch的一个报错该如何解决？ pytorch transformer 图像处理
2023-03-03 16:34

回答 2 已采纳小魔女参考了bing和GPT部分内容调写:如果你使用的是pytorch1.5.1版本，那么你应该安装apex包的1.0.1版本。安装不对的话，可能会出现报错，比如模型训练时出现RuntimeError
Transformer输入Embedding及位置编码详解
2024-07-15 23:30

python学习与分享的博客我们在本文主要介绍Transformer中的输入Embedding及位置编码。Embedding是一种将离散的输入数据（如单词、字符等）转换为连续的向量表示的方法。由于计算机无法直接处理一个单词或者一个汉字，所以需要Embedding把一...
请给我详细描述一下我的毕设到底是要做什么？ transformer 有问必答计算机视觉语音识别
2022-08-04 11:18

回答 3 已采纳 Kinetics-400数据集，video transformer，你的任务我理解就是这个数据集的任务，多分类，你们教授也是想让你看看这篇论文，在这基础上改进。
transformer中，全连接层中的w需要训练么？人工智能机器学习深度学习
2022-12-12 17:20

回答 1 已采纳你说的全连接层的W指的是权重矩阵吧，肯定是要训练的。神经网络训练的主要目的就是更新权重矩阵的参数
三维重建中，transformer是怎么学习2D图像的深度值的？人工智能机器学习计算机视觉
2022-12-08 15:46

回答 1 已采纳望采纳transformer在三维重建中学习2D图像的深度值通常是通过单目视觉来实现的。它会计算图像中物体之间的几何关系，并利用这些信息来估计深度值。对于训练集，Transformer并不对图像有特殊
transformer位置编码以及代码解释
2023-08-02 15:51

championsZZZZ的博客 Transformer 是combination-invariant的。也就是说，混洗输入嵌入不会改变transformer的输出。然而，嵌入的位置也包含重要信息。为了使各自的模型意识到这一点，提出了许多不同的嵌入位置表示（Vaswani 等人，2017）...
当使用transformer模型时，如果语料里的数据的长度超过设置的max_length的时候，怎么解决？ opencv
2022-12-09 09:28

回答 1 已采纳如果这种数据占比较少，直接舍去，如果占比较多，可以尝试使用transformer-xl模型。
transformers训练后翻译结果只有一种 keras tensorflow transformer
2022-06-02 00:26

回答 2 已采纳可能模型特征提取的不够，导致输出一样为什么我的神经网络不管输入什么，输出结果都是相似的？ - 知乎我使用了归一化，也使用了onehot。
fast point transformer训练数据集时缺少cuda_sparse_ops 深度学习计算机视觉
2022-08-01 11:28

回答 1 已采纳这个一般是和显卡相关的一些东西，看名字应该是文件项目下面的用setup跑出来的文件会这么命名。你这个应该是个开源项目吧，仔细看下readme文件，里面一般会将怎么install项目并且运行demo，你
【Transformer系列】深入浅出理解Positional Encoding位置编码
2023-09-14 07:00

花花少年的博客【Transformer系列】深入浅出理解Positional Encoding位置编码
datax transformer 过滤时间问题 python transformer 运维
2021-12-28 16:04

回答 1 已采纳特殊符号问题？
transformer_正余弦位置编码代码笔记
2024-01-31 21:54

等风来随风飘的博客 transformer输入的序列中，不同位置的相同词汇可能会表达不同的含义，通过考虑位置信息的不同来区分序列中不同位置的相同词汇。
【ViT】Vision Transformer的实现01 patch embedding
2024-03-08 20:54

量子-Alex的博客输入的通道数是3 embed_dim既是我们要求的输出通道数即每个token的特征维数，同时在卷积运算里面这代表着这层有多少个卷积核，224的图像，我们设置每个patch图像块的尺寸是16，因此呢，我们可以从H和W两个维度将原...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月17日

悬赏问题

¥15 odoo17的分包重新供应路线如何设置？可从销售订单中实时直接触发采购订单或相关单据
¥15 用C语言怎么判断字符串的输入是否符合设定？
¥15 通信专业本科生论文选这两个哪个方向好研究呀
¥50 我在一个购物网站的排队系统排队，这个排队到号后重新定向到目标网站进行购物，但是有技术牛通过技术方法直接跳过排队系统进入目标网址购物，有没有什么软件或者脚本可以用
¥15 ios可以实现ymodem-1k协议 1024字节传输吗？
¥300 寻抓云闪付tn组成网页付款链接
¥15 请问Ubuntu要怎么安装chrome呀？
¥15 视频编码十六进制问题
¥15 unity terrain打包后地形错位，跟建筑不在同一个位置，怎么办
¥15 uniapp实现如下图的图表功能

为什么transformer的embedding和位置编码后都要有一个pos_drop？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新