SimpleRNN+attention中注意力α的原理？

就是说，α是由s0和hi计算出来的，s0就是编码器的最后一个输出hm，那样的话简单rnn的最后的输出不是会遗忘早先时候的数据么？那这个遗忘了数据的hm去和早先时候的hi线性变换后相乘，乘出来的值有意义么？还有，s0就是hm的话，那和hm相乘的时候不就会获得最高的注意力么？是怎么在decoder中推测出起始符后的第一个字的？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
m0_54204465 2023-01-10 20:50
关注
注意力机制在 RNN 中的应用是用来解决 RNN 在处理长序列时会遗忘早期信息的问题。在 SimpleRNN+attention 模型中，注意力机制通过计算每个时间步的输出和编码器的最终输出之间的相似度来分配权重。这样，在解码器阶段，可以在每一步选择一个最相似的编码器输出来进行处理。

具体来说，对于每一个时间步 i，我们将解码器的隐藏状态 hi 与编码器的最终输出 hm 进行线性变换，再通过 softmax 函数得到每个时间步的注意力权重 ai，即 ai = softmax(hi * W * hm)。这样，早期时间步的 hi 也能够通过 ai 的高权重得到重视，从而解决了 RNN 处理长序列时遗忘早期信息的问题。

关于解码器阶段，在解码器阶段，我们使用起始符后的第一个字来预测第一个输出，这个输出通常是在预训练语言模型中获取的，然后第一步的输出将被用来预测第二个输出，以此类推，直到预测出所有的目标序列。

总的来说, Attention 机制将信息从编码器传递给解码器的过程中，通过计算每一步解码器的隐藏状态与编码器最终输出之间的相似度，来确定在当前时间步中对编码器输出的关注。这样，在解码器阶段，每一步都可以从编码器输出中选择最相关的信息来进行处理，这使得我们可以避免 RNN 网络在处理长序列时的遗忘问题。比如说，在翻译模型中，编码器接收输入的源语句 "I have a cat" 并产生一个隐藏状态序列，解码器接着使用这个隐藏状态序列来生成目标语句 "Je ai un chat"。在解码器生成目标语句的过程中，它可能会在生成 "Je" 的时候主要关注 "I" 和 "have"，而在生成 "ai" 的时候主要关注 "cat"。这样可以解决解码器在生成每一个目标词时，都能根据编码器的输出来关注那些重要的源语言词汇。

当然，这仅仅是一个简单的例子，在实际应用中，注意力机制还可以用于语音识别，图像分类等其他领域。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

ViT (Vision Transformer) ---- SimpleRNN + Attention
2021-12-30 20:45

zsffuture的博客 Attention机制最早还是要来源Bengio在2015年发表的一篇文章Neural machine translation by jointly learning to align and translate，后面的...说起attention，这个注意力机制到底是怎么工作的，简单点来说其实就是相
注意力机制（Attention）：Seq2Seq模型的改进
2021-07-12 12:35

RuizhiHe的博客本文讲解Seq2Seq模型改进方法：注意力机制（Attention）。本人全部文章请参见：博客文章导航目录本文归属于：NLP模型原理与应用系列前文：Sequence-to-Sequence模型原理 2. Seq2Seq模型缺点 Seq2Seq模型有一个...
自注意力机制（Self-Attention）：从Seq2Seq模型到一般RNN模型
2021-07-13 21:31

RuizhiHe的博客本文讲解自注意力机制（Self-Attention）。本人全部文章请参见：博客文章导航目录本文归属于：NLP模型原理与应用系列前文：注意力机制（Attention）：Seq2Seq模型的改进 2. 自注意力机制（Self-Attention） Seq2...
注意力机制 ×RNN：深度融合创新，解锁序列处理密码，引领 AI 前沿应用风暴
2024-12-31 15:32

AI_DL_CODE的博客随后详解运行原理，借注意力权重凸显关键信息；剖析数学原理，支撑复杂模型训练。Python 实操演示搭建、训练流程，情感分析案例展现实力。还涵盖拓展优化、应对挑战策略，探索跨领域应用、工程实践要点。更追踪前沿...
7_Attention（注意力机制）
2022-01-29 08:30

少云清的博客 Attention（注意力机制）
【大语言模型 01】注意力机制数学推导：从零实现Self-Attention
2025-08-16 12:38

莫比乌斯@卷的博客本文从数学原理出发，详细推导Self-Attention的完整计算过程，包含矩阵求导、可视化分析和完整代码实现。通过直观的类比和逐步分解，帮助读者彻底理解注意力机制的工作原理，为深入学习大语言模型奠定坚实基础。
RNN模型与NLP应用——（9/9）Self-Attention（自注意力机制）
2025-04-01 17:47

誉鏐的博客本文借助Self-attention运用在Simple RNN上的例子，帮助你更深一步了解Self-attention的底层逻辑，和运算过程
RNN与Self-Attention
2024-10-29 10:18

大田斗小木子的博客 RNN与Self-Attention
AI人工智能深度学习算法：智能深度学习代理的自然语言处理运用
2024-07-26 01:45

光子AI的博客自然语言处理（Natural Language Processing，NLP）作为人工智能和语言学的交叉领域，在近年来取得了巨大的进展。随着深度学习技术的rapid发展，特别是基于神经网络的方法，NLP已经成为了AI领域最活跃和最具前景的...
AWS人工智能主题学习月：深度学习入门笔记
2022-12-30 22:51

牛大了202X的博客深度学习算法是学习数据表示的更广泛的机器学习领域的一个子集，而机器学习本身是人工智能的一个子集。深度学习使用多层非线性处理单元进行特征提取和转换，每个连续层都使用前一层的输出作为输入。早在上个世纪50...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月10日

SimpleRNN+attention中注意力α的原理？

1条回答 默认 最新

问题事件

1条回答默认最新