Masked-Self-Attention 的作用有两种解释，该信谁？

Masked-Self-Attention 的作用有两种解释，到底该信谁？

我很喜欢其中一个解释：“decoder会attend 到已经产生出来的 sequence，因为还没有产生出来的无法做attention。” 可是有人说：“如果不mask，那attention后面的词的时候前面已经预测的词会跟着变化。”我觉得他们理解错了。

你们觉得呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
m0_61899108 2022-11-27 19:35
关注
第一种说的就很明白，第二种不理解。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

r语言 attach（）和detach（）问题 r语言
2022-09-02 09:10

回答 1 已采纳这篇文章：R语言中的attach（）与detach（）也许能够解决你的问题，你可以看下你还可以看下r语言参考手册中的 r语言 attach()和detach()。
file_get_contents（）打破了ISO-8859-1编码 html http php
2016-04-05 16:17

回答 1 已采纳 It sounds to me like this might just be a problem of lost encoding details. What you're describi
引入朴素贝叶斯模型时，出现报错，该怎么解决？人工智能数据挖掘机器学习
2021-02-28 11:38

回答 1 已采纳 numpy在其最新版本中已弃用numpy.testing.nosetester，问题及解决方案见： https://qastack.cn/programming/59474533/modulenot
NLP经典论文：Attention、Self-Attention、Multi-Head Attention、Transformer 笔记
2021-12-09 15:24

电信保温杯的博客 NLP经典论文：Attention、Transformer 笔记论文模型结构整体结构输入输出Attention结构没有mask的情况有mask的情况Input Embedding and Positional Encoding输入Input EmbeddingPositional Encoding输出Encoder第一...
请问这个报错怎么解决？ pycharm python 深度学习
2023-02-24 19:55

回答 1 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ报错提示中显示 forward() 方法只需要 2 个位置参数，但实际传入了 3 个参数。您需要检查传入的参数是否符合 forward() 方法的参数定义。-在您的代码中，
为什么Go的bufio在后台使用恐慌？
2016-04-26 05:10

回答 1 已采纳 It may be questionable, but consider: fill is a private method, and b.w and b.buf are private fiel
SpringMVC在Controller类中获取jsp页面中的json串，使用@ResponseBody来返回json串给页面，报错 jar java java-ee spring
2019-06-16 14:24

回答 2 已采纳参数格式不对，应该用 {"test":"电脑"}
“多输入多输出的Attention机制”(MIMO-Attentive)的自然语言理解模型，该模型能够同时处理多个不同类型的数据并生成相应的输出结果
2023-08-25 12:18

禅与计算机程序设计艺术的博客为了解决该问题，AI Lab研究团队提出了一种名为“多输入多输出的Attention机制”(MIMO-Attentive)的自然语言理解模型，该模型能够同时处理多个不同类型的数据并生成相应的输出结果。MIMO-Attentive是基于Seq2Seq...
springboot后台输出DEBUG o.s.web.servlet.DispatcherServlet - Exiting from "ERROR" dispatch, status 404 java spring
2020-02-17 22:58

回答 4 已采纳
为什么会出现报错，已附代码？ python 有问必答
2022-04-12 20:15

回答 4 已采纳 index_value/index_value.iloc[0]这里，一个为字符串类型，一个是浮点数类型，不能相除，检查一下两个数据，用astype(float)转换为浮点数类型。确保数据项下数据类型为
导入Vault / builtin / credential / aws会将测试标记添加到命令行应用程序
2018-01-02 14:20

回答 1 已采纳 That is because even though you use _ to mask github.com/hashicorp/vault/builtin/credential/aws, t
ChatGLM两代的部署/微调/实现：从基座GLM、ChatGLM的LoRA/P-Tuning微调、6B源码解读到ChatGLM2的微调与实现
2023-03-31 16:40

v_JULY_v的博客随着『GPT4多模态/Microsoft 365 Copilot/Github Copilot X/ChatGPT插件』的推出，绝大...以后很多公司很多人面向GPT编程(很快技术人员分两种，一种懂GPT，一种不懂GPT)然ChatGPT/GPT4基本不可能开源了，而通过上文
将数组解组为struct
2018-02-14 18:25

回答 4 已采纳 This would work package main type CatalogBank struct { Icon []interface{} `json:"icon"` }
如何训练一个 BERT 深度学习语言模型?
2023-09-11 01:14

禅与计算机程序设计艺术的博客本文作者是资深人工智能专家、资深程序员和软件架构师，他主要从事机器学习、深度学习以及自然语言处理领域的研究工作。近年来由于在自然语言处理、机器学习和图像识别等领域的突破性进展，人们越来越重视对人类语言...
零样本迁移？全新多语言预训练模型DeltaLM！
2022-01-14 11:05

kaiyuan_sjtu的博客作者|马树铭MSRA研究员整理 |DataFunSummit目前，多语言神经机器翻译受到越来越多的研究人员的关注，多语言预训练模型对神经机器翻译可以起到非常重要的作用。预训练模...
ChatGPT技术原理解析：从RL之PPO算法、RLHF到GPT4、instructGPT
2023-01-15 22:01

v_JULY_v的博客其关键构成是基于Transformer-Decoder的Masked Self-Attention 2019年2月的融合prompt learning的GPT2，prompt learning的意义在于不用微调也能做任务且这一年已经开始探索通过RLHF去微调语言模型比如GPT2了 ...
详细解析Attenton Is All You Need论文中的位置编码模块及其作用 Attention Is All You Need 论文解析之四——positional encoding
2023-08-28 14:00

禅与计算机程序设计艺术的博客自注意力（Self-attention）机制在深度学习领域十分重要，它可以帮助模型自动捕获输入序列中不同位置之间的关联性，并进一步提升模型的表达能力。而位置编码（Positional Encoding）也被广泛应用于神经网络结构中，...
整合目前最先进的技术理论和实践经验，帮助读者系统地掌握预训练语言模型（Pre-trained language models，PLMs）的基本知识、应用、发展方向及未来趋势
2023-08-01 01:50

禅与计算机程序设计艺术的博客 2020年是深度学习与自然语言处理领域的元年，也是一个重大的里程碑事件。NLP领域利用了深度学习的最新技术，通过训练模型预测语言、文本等高维数据，取得了极其惊人的成就。近几年，无论是从语言模型到文本分类、...
Transformer模型: Attention Is All You Need
2023-08-09 04:16

禅与计算机程序设计艺术的博客从图像、自然语言处理到推荐系统等众多应用都用到了深度学习技术。其中，在机器翻译、文本摘要、视觉问答等领域，传统的序列到序列(Seq2seq)模型已无法胜任，需要引入Attention机制来提升模型的性能。transformer...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月25日

悬赏问题

¥15 有兄弟姐妹会用word插图功能制作类似citespace的图片吗？
¥15 请教：如何用postman调用本地虚拟机区块链接上的合约？
¥15 为什么使用javacv转封装rtsp为rtmp时出现如下问题：[h264 @ 000000004faf7500]no frame？
¥15 乘性高斯噪声在深度学习网络中的应用
¥15 运筹学排序问题中的在线排序
¥15 关于docker部署flink集成hadoop的yarn，请教个问题 flink启动yarn-session.sh连不上hadoop，这个整了好几天一直不行，求帮忙看一下怎么解决
¥15 深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集
¥15 C++ 头文件/宏冲突问题解决
¥15 用comsol模拟大气湍流通过底部加热（温度不同）的腔体
¥50 安卓adb backup备份子用户应用数据失败

Masked-Self-Attention 的作用有两种解释，该信谁？

Masked-Self-Attention 的作用有两种解释，到底该信谁？

你们觉得呢？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新