多头注意力机制里的valid_lens是什么意思？有什么作用？


class MultiHeadAttention(nn.Module):
    """Multi-head attention."""
    def __init__(self, key_size, query_size, value_size, num_hiddens,
                 num_heads, dropout, bias=False, **kwargs):
        super(MultiHeadAttention, self).__init__(**kwargs)
        self.num_heads = num_heads
        self.attention = d2l.DotProductAttention(dropout)
        self.W_q = nn.Linear(query_size, num_hiddens, bias=bias)
        self.W_k = nn.Linear(key_size, num_hiddens, bias=bias)
        self.W_v = nn.Linear(value_size, num_hiddens, bias=bias)
        self.W_o = nn.Linear(num_hiddens, num_hiddens, bias=bias)

    def forward(self, queries, keys, values, valid_lens):
        # Shape of `queries`, `keys`, or `values`:
        # (`batch_size`, no. of queries or key-value pairs, `num_hiddens`)
        # Shape of `valid_lens`:
        # (`batch_size`,) or (`batch_size`, no. of queries)
        # After transposing, shape of output `queries`, `keys`, or `values`:
        # (`batch_size` * `num_heads`, no. of queries or key-value pairs,
        # `num_hiddens` / `num_heads`)
        queries = transpose_qkv(self.W_q(queries), self.num_heads)
        keys = transpose_qkv(self.W_k(keys), self.num_heads)
        values = transpose_qkv(self.W_v(values), self.num_heads)

        if valid_lens is not None:
            # On axis 0, copy the first item (scalar or vector) for
            # `num_heads` times, then copy the next item, and so on
            valid_lens = torch.repeat_interleave(valid_lens,
                                                 repeats=self.num_heads,
                                                 dim=0)

        # Shape of `output`: (`batch_size` * `num_heads`, no. of queries,
        # `num_hiddens` / `num_heads`)
        output = self.attention(queries, keys, values, valid_lens)

        # Shape of `output_concat`:
        # (`batch_size`, no. of queries, `num_hiddens`)
        output_concat = transpose_output(output, self.num_heads)
        return self.W_o(output_concat)

valid_lens在多头注意力机制中的作用是什么呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
丨封尘绝念斩丨 2022-03-03 15:03
关注
获得1.25元问题酬金

假设X的维度： torch.Size([64, 10, 32]) batchsz=64,seq_len=10,dim=32。
X的维度是[64, 10, 32]以valid_lens要mask它，所以，肯定是（64,10），现在裂变成4个head，所以就是(256,10)。

解决
无用 13
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

在多变量时序预测任务中，如何利用多头注意力机制计算各变量之间的相关系 python tensorflow 时序数据库
2023-04-04 20:05

回答 5 已采纳引用new bing作答：在多变量时序预测任务中，利用多头注意力机制求得各变量之间的相关系数，需要对输入的数据进行一些处理和调整。假设输入数据的维度为(batch_size, seq_len, num
用GAT图注意力网络做链路预测工作，怎么提高预测准确率？人工智能深度学习神经网络
2023-02-10 01:31

回答 2 已采纳以下答案引用自GPT-3大模型,请合理使用：如果你想要学习率衰减的方法，可以参考这份文章：https://www.quora.com/How-can-I-improve-the-learning-ra
模型的batch_size与层的batch_size不一致，该怎么办呢？ batch python tensorflow
2023-04-07 15:25

回答 1 已采纳在tensorflow中，如果一个层没有指定输入的batch_size，则该层的输出将自动采用输入张量的batch_size，这意味着如果你的输入张量的batch_size为None，则输出也将是No
Transformer的multi-head attention中的valid_lens是什么意思？
2023-04-03 23:47

WHU李相赫的博客如果是，它会将 valid_lens 重复 shape[1] 次，这样每个序列的有效长度都可以用一个相同的长度来表示。然后，函数使用 d2l.sequence_mask 函数将要掩蔽的元素替换为一个非常大的负值（-1e6），这样 softmax 的输出就...
请问最后一个cell输出作为q在哪篇参考文献里面的人工智能机器学习深度学习
2022-07-18 00:49

回答 1 已采纳应该没有出处，结合注意力机制原理：最后一个cell可以表示整个文本的特征，在注意力机制里就是一个给定的目标，因此可作为查询值query，然后和key计算权重系数，再和value加权求和。
Java使用正则表达式提取数据，JAVA里怎么写我不会，我在C#里会
2008-11-13 10:32

回答 5 已采纳 String src1 = "/ssiwh/vieen/;aa=87211_diweuj;bb=wqqeii_998;qq/;/"; String re1 = "(?<=([aa|bb]
动手学深度学习（五十）——多头注意力机制
2022-02-21 19:35

留小星的博客为什么用多头注意力机制2. 什么是多头注意力机制3. 多头注意力机制模型和理论计算4. 动手实现多头注意力机制层小结练习 1. 为什么用多头注意力机制 所谓自注意力机制就是通过某种运算来直接计算得到句子在编码...
跟李沐学AI之注意力机制+transformer
2022-10-18 21:16

小小小方的博客跟李沐学AI之注意力机制+transformer
详解注意力机制和Transformer
2023-01-31 20:50

zyw2002的博客介绍了什么是Attention ▶️介绍Encoder-Decoder框架 (目前大部分Attention Model都是依附于该框架实现)▶️ 介绍了Attention模型中的基础概念查询、键和值 ▶️ 通过讲解Nadaraya-Watson核回归模型来了解常见的注意...
深度学习代码|Multi-Headed Attention (MHA)多头注意力机制的代码实现
2024-02-09 00:32

丁希希哇的博客定义多头自注意力机制中的线性变换操作（在自注意力机制中，需要将输入的特征向量通过线性变换映射到不同的空间中，以便进行多头注意力的计算。将向量拆分为给定数量的头部，以获得多头注意。'''d_model：模型输入的...
【动手学深度学习】(task1&2&3)注意力机制剖析
2023-03-20 00:13

山顶夕景的博客自注意力和位置编码 - 在自注意力中，查询、键和值都来自同一组输入。 - 卷积神经网络和自注意力都拥有并行计算的优势，而且自注意力的最大路径长度最短。但是因为其计算复杂度是关于序列长度的二次方，所以在很长的...
注意力机制（Attention Mechanism）
2022-04-01 16:15

不知名高校研究生的博客 注意力机制 卷积、全连接、池化层都只考虑不随意线索 注意力机制则显示的考虑随意线索随意线索被称之为查询（query）每个输入是一个值（value）和不随意线索（key）的对通过注意力池化层来有偏向性...
93.transformer、多头注意力以及代码实现
2023-01-29 20:08

chnyi6_ya的博客有掩码的多头注意力 5. 基于位置的前馈网络 6. 层归一化 batch norm：比如说一行是一个样本，那么BN就是对一列进行归一化，就是对所有数据项的某一列特征进行归一化 layer norm：是对一个单样本内部做归一化，也...
注意力机制（四）：多头注意力
2023-03-23 15:49

青云遮夜雨的博客多头注意力（Multi-Head Attention）是注意力机制的一种扩展形式，可以在处理序列数据时更有效地提取信息。在标准的注意力机制中，我们计算一个加权的上下文向量来表示输入序列的信息。而在多头注意力中，我们使用...
MultiHeadAttention多头注意力机制的原理
2023-04-17 18:08

tostq的博客 MultiHeadAttention多头注意力作为Transformer的核心组件，其主要由多组自注意力组合构成，Attention Is All You Need，self-attention。
NLP-D29-注意力机制&&在seq2seq中使用注意力
2022-05-23 22:04

甄小胖的博客 13、bmm小批量乘法求加权平均值只能说，精致 14注意力机制这图好清晰 —1057去干饭，下午应该可以写到注意力的代码。感觉加性注意力更加灵活；而dot的就是默认了x相似对应y也应该相似这件事。 —1413开始开始码...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月3日

悬赏问题

¥15 oracle集群安装出bug
¥15 关于#python#的问题：自动化测试
¥20 问题请教！vue项目关于Nginx配置nonce安全策略的问题
¥15 教务系统账号被盗号如何追溯设备
¥20 delta降尺度方法，未来数据怎么降尺度
¥15 c# 使用NPOI快速将datatable数据导入excel中指定sheet，要求快速高效
¥15 再不同版本的系统上，TCP传输速度不一致
¥15 高德地图点聚合中Marker的位置无法实时更新
¥15 DIFY API Endpoint 问题。
¥20 sub地址DHCP问题

多头注意力机制里的valid_lens是什么意思？有什么作用？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新