在多变量时序预测任务中，如何利用多头注意力机制计算各变量之间的相关系

在多变量时序预测任务中，如何利用多头注意力机制求得各变量之间的相关系？
例如输入为：（100,4,12）其中12为多个变量，我想计算变量之间的相关性，下面代码好像是计算时间步之间的相关性，求各位指点指点哇

class MultiHeadSelfAttention(Layer):
    def __init__(self, embed_dim, num_heads):
        super(MultiHeadSelfAttention, self).__init__()

        self.embed_dim = embed_dim
        self.num_heads = num_heads
        if embed_dim % num_heads != 0:
            raise ValueError(
                f"embedding dimension = {embed_dim} should be divisible by number of heads = {num_heads}"
            )

        self.projection_dim = embed_dim // num_heads
        self.query_dense = Dense(embed_dim)
        self.key_dense = Dense(embed_dim)
        self.value_dense = Dense(embed_dim)
        self.output_dense = Dense(embed_dim)
        # self.attention=MultiHeadAttention()

    def attention(self, query, key, value):
        score = tf.matmul(query, key, transpose_b=True)
        dim_key = tf.cast(tf.shape(key)[-1], tf.float32)
        scaled_score = score / tf.math.sqrt(dim_key)
        weights = tf.nn.softmax(scaled_score, axis=-1)
        out = tf.matmul(weights, value)
        return out, weights

    def separate_heads(self, x, batch_size):
        x = tf.reshape(x, (batch_size, -1, self.num_heads, self.projection_dim))
        return tf.transpose(x, perm=[0, 2, 1, 3])

    def call(self, inputs):
        # x.shape = [batch_size, seq_len, embedding_dim]
        batch_size = tf.shape(inputs)[0]

        # Query
        # Dense layer to project and split embed_dim to num_heads*projection_dim
        query = self.query_dense(inputs)  # (batch_size, seq_len, embed_dim)
        query = self.separate_heads(
            query, batch_size
        )  # (batch_size, num_heads, seq_len, projection_dim)

        # Key
        # Dense layer to project and split embed_dim to num_heads*projection_dim
        key = self.key_dense(inputs)  # (batch_size, seq_len, embed_dim)
        key = self.separate_heads(
            key, batch_size
        )  # (batch_size, num_heads, seq_len, projection_dim)

        # Value
        # Dense layer to project and split embed_dim to num_heads*projection_dim
        value = self.value_dense(inputs)  # (batch_size, seq_len, embed_dim)
        value = self.separate_heads(
            value, batch_size
        )  # (batch_size, num_heads, seq_len, projection_dim)

        # Attention
        attention, weigths = self.attention(query, key, value)
        attention = tf.transpose(
            attention, perm=[0, 2, 1, 3]
        )  # (batch_size, seq_len, num_heads, projection_dim)

        # Combine back to num_heads*projection_dim
        concat_attention = tf.reshape(
            attention, (batch_size, -1, self.embed_dim)
        )  # (batch_size, seq_len, embed_dim)

        # Apply a final Dense layer
        out = self.output_dense(
            concat_attention
        )  # (batch_size, seq_len, embed_dim)
        return out

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

「已注销」 2023-04-04 20:29

关注

引用new bing作答：
在多变量时序预测任务中，利用多头注意力机制求得各变量之间的相关系数，需要对输入的数据进行一些处理和调整。假设输入数据的维度为(batch_size, seq_len, num_variables)，其中num_variables为变量的数量。具体的步骤如下：

1 将输入的数据进行转置，使得变量的数量成为第二个维度，即新的维度为(batch_size, num_variables, seq_len)。

2 将转置后的数据输入到多头注意力机制中，通过query, key和value的计算，可以得到注意力矩阵，注意力矩阵的维度为(batch_size, num_heads, seq_len, seq_len)，其中seq_len为序列的长度，num_heads为注意力头的数量。

3 将注意力矩阵进行汇总，得到每个时间步与其他时间步的相关系数，具体的计算方法为将每个头的注意力矩阵相加并除以num_heads，得到的维度为(batch_size, seq_len, seq_len)。

4 最后，将相关系数矩阵进行转置，使得变量的数量成为第一个维度，即新的维度为(batch_size, num_variables, num_variables)，即可得到各变量之间的相关系数矩阵。

下面是代码实现：

class MultiHeadAttention(Layer):
    def __init__(self, embed_dim, num_heads):
        super(MultiHeadAttention, self).__init__()
        self.embed_dim = embed_dim
        self.num_heads = num_heads
        if embed_dim % num_heads != 0:
            raise ValueError(
                f"embedding dimension = {embed_dim} should be divisible by number of heads = {num_heads}"
            )

        self.projection_dim = embed_dim // num_heads
        self.query_dense = Dense(embed_dim)
        self.key_dense = Dense(embed_dim)
        self.value_dense = Dense(embed_dim)
        self.output_dense = Dense(embed_dim)

    def attention(self, query, key, value):
        score = tf.matmul(query, key, transpose_b=True)
        dim_key = tf.cast(tf.shape(key)[-1], tf.float32)
        scaled_score = score / tf.math.sqrt(dim_key)
        weights = tf.nn.softmax(scaled_score, axis=-1)
        out = tf.matmul(weights, value)
        return out, weights

    def separate_heads(self, x, batch_size):
        x = tf.reshape(x, (batch_size, -1, self.num_heads, self.projection_dim))
        return tf.transpose(x, perm=[0, 2, 1, 3])

    def call(self, inputs):
        # x.shape = [batch_size, seq_len, num_variables]
        batch_size = tf.shape(inputs)[0]

        # Transpose inputs to (batch_size, num_variables, seq_len)
        inputs = tf.transpose(inputs, perm=[0, 2, 1])

        # Query
        query = self.query_dense(inputs)
        query = self.separate_heads(query, batch_size)

        # Key
        key = self.key_dense(inputs)
        key = self.separate_heads(key, batch_size)

        # Value
        value = self.value_dense(inputs)
        value = self.separate_heads(value, batch_size)

        # Attention
        query_attention, weights = self.attention(query, key, value)

        # Concatenate heads
        query_attention = tf.transpose(query_attention, perm=[0, 2, 1, 3])
        concat_attention = tf.reshape(query_attention, (batch_size, -1, self.embed_dim))

        # Output
        output = self.output_dense(concat_attention)

        return output

最后输出的张量形状为 [batch_size, seq_len, embed_dim]，其中 embed_dim 是指输入张量中每个时间步的特征维度。如果需要对时间步进行汇总，可以对第二维进行相应的汇聚操作。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(4条)

报告相同问题？

关注问题

在多变量时序预测任务中，如何利用多头注意力机制计算各变量之间的相关系 python tensorflow 时序数据库
2023-04-04 20:05

回答 5 已采纳引用new bing作答：在多变量时序预测任务中，利用多头注意力机制求得各变量之间的相关系数，需要对输入的数据进行一些处理和调整。假设输入数据的维度为(batch_size, seq_len, num
r语言中数据框处理变量获得连续变量 r语言
2021-03-16 21:48

回答 1 已采纳参考：https://stackoverflow.com/questions/54814910/count-number-values-in-range-in-r `mapply` 函数和 `tid
随机森林用于计算变量的重要性算预测还是分类功能呀？ python r语言随机森林
2022-04-22 19:17

回答 1 已采纳一般是用来评估，所以算是预测吧。主要就是信息，熵，决策树。理解了决策树的话，RF也好理解了https://zhuanlan.zhihu.com/p/54286825
多维时序 | Matlab实现BiGRU-Mutilhead-Attention双向门控循环单元融合多头注意力机制多变量时序预测
2024-03-09 23:29

机器学习之心的博客多维时序 | Matlab实现BiGRU-Mutilhead-Attention双向门控循环单元融合多头注意力机制多变量时序预测
vb编程语言中如何在定义的主窗体中使用ocx传入的内存的变量，动态接收变量？
2016-12-07 07:44

回答 2 已采纳两个办法，一个是通过全局变量，一个是用属性的方式。
怎么在vb6编程语言中实现窗体切换的时候同时切换对方窗体上的成员变量？
2017-01-17 16:09

回答 2 已采纳最好用事件来实现，在更改变量值的时候通知对方
Java语言中什么叫符号变量，什么叫做常量，两者是不是一回事，相互之间怎么转换开发语言
2020-05-13 19:50

回答 2 已采纳 Java 只有变量和常量两种哦，建议还是去找本Java编程基础学习哈。
多维时序 | MATLAB实现SAO-CNN-BiGRU-Multihead-Attention多头注意力机制多变量时间序列预测
2023-12-11 23:39

机器学习之心的博客多维时序 | MATLAB实现SAO-CNN-BiGRU-Multihead-Attention多头注意力机制多变量时间序列预测
vb编程语言里怎么从ocx通过变量名能不能调用exe中的内存的变量？
2016-12-06 11:32

回答 2 已采纳可以通过属性传值嘛，在ocx定义属性，主程序赋值
FreeRTOS 任务间通讯用事件或消息队列或信号量，那么单个任务内部可以使用全局变量吗？ c语言
2022-04-25 09:21

回答 1 已采纳当然可以使用全局变量，在RTOS中要考虑访问全局变量时的互斥问题。如果只有一个任务写这个全局变量，其他任务都只是读这个变量，那么：对于这个全局变量不需要做任何互斥操作。如果可能有多个任务写同一个全局变
求编程语言中各个变量有多少字节？ c语言
2020-05-13 09:03

回答 1 已采纳这里不能用switch，字符串比较要这么写 ``` #include #include int getByteofType(char t[]) { if (strcmp(t,
多维时序 | MATLAB实现TSOA-TCN-Multihead-Attention多头注意力机制多变量时间序列预测
2023-12-10 13:41

机器学习之心的博客多维时序 | MATLAB实现TSOA-TCN-Multihead-Attention多头注意力机制多变量时间序列预测
vb编程语言的ocx控件怎么从主程序exe文件的内存中拿到变量？
2016-12-06 08:45

回答 2 已采纳你定义成全局变量，作为属性传给控件，控件调用返回
多维时序 | MATLAB实现EVO-CNN-BiGRU-Mutilhead-Attention能量谷算法优化卷积网络结合双向门控循环单元网络融合多头注意力机制多变量时间序列预测
2023-12-23 10:40

机器学习之心的博客多维时序 | MATLAB实现EVO-CNN-BiGRU-Mutilhead-Attention能量谷算法优化卷积网络结合双向门控循环单元网络融合多头注意力机制多变量时间序列预测
多头注意力+自适应带宽核密度估计+区间预测 | CNN-BiLSTM-MATT-ABKDE的多头注意力机制自适应带宽核密度估计多变量回归区间预测（Matlab实现）
2024-04-20 22:44

机器学习之心的博客多头注意力+自适应带宽核密度估计+区间预测 | CNN-BiLSTM-MATT-ABKDE的多头注意力机制自适应带宽核密度估计多变量回归区间预测（Matlab实现）
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 4月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金15元 4月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月4日

悬赏问题

¥15 对于squad数据集的基于bert模型的微调
¥15 为什么我运行这个网络会出现以下报错？CRNN神经网络
¥20 steam下载游戏占用内存
¥15 CST保存项目时失败
¥15 树莓派5怎么用camera module 3啊
¥20 java在应用程序里获取不到扬声器设备
¥15 echarts动画效果的问题，请帮我添加一个动画。不要机器人回答。
¥15 Attention is all you need 的代码运行
¥15 一个服务器已经有一个系统了如果用usb再装一个系统，原来的系统会被覆盖掉吗
¥15 使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时，终端显示出了sequence handled的进度条，但是并不出结果就自动终止回到命令提示行了是怎么回事：

在多变量时序预测任务中，如何利用多头注意力机制计算各变量之间的相关系

5条回答 默认 最新

问题事件

悬赏问题

5条回答默认最新