注意力机制的维度和时间步应用

在使用注意力机制碰到的问题，困扰许久
1、目前普通的注意力机制在scdn查看时碰到两种写法，在对时间维度的注意力应用中，一个是博主自写的，代码如下；另一种是项目中直接导入attention包的做法。非常疑惑是否一致，以及该博主的代码是否正确，感谢回复。

def attention_3d_block(inputs):
    # inputs.shape = (batch_size, time_steps, input_dim)
    input_dim = int(inputs.shape[2])
    a = Permute((2, 1))(inputs)
    a = Reshape((input_dim, TIME_STEPS))(a) # this line is not useful. It's just to know which dimension is what.
    a = Dense(TIME_STEPS, activation='softmax')(a)
    if SINGLE_ATTENTION_VECTOR:
        a = Lambda(lambda x: K.mean(x, axis=1), name='dim_reduction')(a)
        a = RepeatVector(input_dim)(a)
    a_probs = Permute((2, 1), name='attention_vec')(a)
    output_attention_mul = merge([inputs, a_probs], name='attention_mul', mode='mul')
    return output_attention_mul

2、同样，问题一提到的项目中使用方法如下，该方法是对时间的注意力应用还是维度层面的应用，如何去看呢

    num_samples, time_steps, input_dim, output_dim = 100, 10, 1, 1
    data_x = np.random.uniform(size=(num_samples, time_steps, input_dim))
    data_y = np.random.uniform(size=(num_samples, output_dim))
    model_input = Input(shape=(time_steps, input_dim))
    x = LSTM(64, return_sequences=True)(model_input)
    x = Attention(units=32)(x)
    x = Dense(1)(x)
    model = Model(model_input, x)
    model.compile(loss='mae', optimizer='adam')

3、同样是问题一的博主编写的对于维度的注意力应用，代码如下，想知道这样是否可行呢。

def attention_3d_block(inputs):
    input_dim = int(inputs.shape[2])
    a = inputs
    a = Dense(input_dim, activation='softmax')(a)
    if SINGLE_ATTENTION_VECTOR:
        a = Lambda(lambda x: K.mean(x, axis=1), name='dim_reduction')(a)
        a = RepeatVector(input_dim)(a)
    a_probs = Permute((1, 2), name='attention_vec')(a)
    output_attention_mul = merge([inputs, a_probs], name='attention_mul', mode='mul')
    return output_attention_mul

4、如果我有一个多维度多时间步的数据，我希望对维度层面和时间步层面都进行注意力应用，目前看到的一个结构是在编码器使用空间注意力，解码器使用时间注意力，具体的模型结构应该是怎样呢，Input-空间注意力-lstm-时间注意力-output吗
感谢各位的回复。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
追cium 2023-03-20 16:53
关注
参考GPT和自己的思路：

这个是一个使用3D注意力机制处理时序数据的函数。它的输入是一个形状为(batch_size, time_steps, input_dim)的张量，其中batch_size表示批量大小，time_steps表示时间步数，input_dim表示每步输入的维度。该函数首先通过Permute函数转换输入张量的维度，即将维度为(time_steps, input_dim)的矩阵转置，并将形状变为(input_dim, time_steps)，这一步是为了使每个时间步所代表的向量在计算时能够进行dot product，因为dot product只支持最后两维之间的矩阵乘法计算。然后reshape操作仅仅是为了让你在输出中能够知道每个维度的意义，并没有实际作用。下一步是经过一个全连接层，将(input_dim, time_steps)的矩阵转换为(time_steps, time_steps)的矩阵，因为softmax操作只能作用于矩阵的行，其目的是计算每个时间步的注意力权重。如果SINGLE_ATTENTION_VECTOR为True，则使用Lambda层将每个时间步的注意力权重求平均，得到一个形状为(batch_size, 1, time_steps)的张量，用RepeatVector层拓展为原来的维度，即形状为(batch_size, time_steps, time_steps)的张量。最后，通过merge函数和mode参数设置为'mul'，实现输入和注意力权重的Hadamard积，即实现了注意力机制。

参考文献：

[1] Yang, Kaizhi, et al. "Hierarchical attention networks for document classification." Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics, 2016.

[2] Zhou, Peng, et al. "End-to-end attention-based large vocabulary speech recognition." arXiv preprint arXiv:1701.02720 (2017).

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

R语言报错'x'必需是阵列,而且至少得有两个维度 r语言
2022-07-10 20:23

回答 1 已采纳请确保colSum内的内容的是二维或以上数组利用dim()函数确定colsum函数内的维度，如果不是2维，尝试将格式转化为二维数组。
AMOS 做中介效应但是没有维度开发语言算法预编码算法
2023-02-15 15:32

回答 2 已采纳在做中介效应分析时，因变量如果没有维度，可以使用其它技术来实现。一种常见的技巧就是使用多重回归来分析中介效应，即结合自变量以及中介变量，一次性拟合出该因变量的所有参数，并估计各变量的系数，从而得出中
keras模型训练输出和测试输出数据维度不一致 keras python 神经网络
2023-02-23 17:17

回答 2 已采纳试下这样：predict2 = model.predict(Xtrain)print(predict2.shape)看下是否训练数据也一样
注意力机制详解系列（三）：空间注意力机制
2023-02-28 09:06

GoAI的博客本篇为注意力机制系列第三篇，主要介绍注意力机制中的空间注意力机制，着重详解DCN、Non-local、ViT、DETR等模型，下一篇将对混合注意力机制和时域注意力机制进行讲解。
关于2D卷积层的输入维度和输出维度 python
2023-01-02 21:11

回答 2 已采纳如果输入是一个5个28x28的全彩图像的批次，那么输入维度是(batch_size,28,28,3)。输出维度将是(batch_size,28,28,14)，因为有14个过滤器。对于填充='sam
编程Python数据分析与应用 python
2022-06-09 21:22

回答 1 已采纳这题目内容太多了，折腾半天，可能有些理解不一定正确，仅供参考 #1、读取文件team.xlsx数据，其中'name'：名字, 'team'：所属团队, '1'：语文分数, '2'：数学分数, '3'：
【matlab】带有下标的赋值维度不匹配 matlab 开发语言
2023-03-05 19:43

回答 1 已采纳 “Devil组”引证GPT后的撰写：根据你提供的代码，data结构体中的ppg字段是一个结构体数组，sqi结构体中的ppg字段是一个结构体，而且ppg结构体中包含一个v字段，v是一个列向量。在这种情
Attention 注意力机制在 NLP 中的应用
2023-07-28 01:02

AI天才研究院的博客 2020年7月2日，在Facebook AI Research(FAIR) 的...本次论坛邀请了来自微软亚洲研究院、谷歌Brain团队、Facebook AI、百度、清华等知名公司的学者等分享深度学习、图神经网络、强化学习、自然语言处理等前沿AI主题。
多维度统计表作业-用python进行编程 python
2020-03-02 00:11

回答 2 已采纳 ```python data = {'地区':['山东','上海','江苏','浙江','山东','江苏','上海','江苏'], '月份':['2020年2月','2020年
MATLAB fsolve：串联的矩阵的维度不一致，如何解决？ matlab 开发语言
2022-02-28 16:33

回答 1 已采纳你好，把函数句柄里面的逗号改成分号就行 a=9; d=0.6; xr1=1; xg1=1; xb1=1.2; x0=[2,2,2,2,2,2,0.6]; % 初始参考点 fun=@(
【matlab】串联矩阵维度不一致/未知的命令选项 matlab 开发语言
2023-03-04 18:05

回答 1 已采纳 “Devil组”引证GPT后的撰写：关于维度不一致的问题，是因为在执行 rel_data=[t;rel_data]; 语句时，将 t 和 rel_data 纵向拼接形成一个新的矩阵，但是 t 的维度
卷积神经网络中的注意力机制(Attention Mechanism)
2023-07-12 01:25

AI天才研究院的博客卷积神经网络中的，并根据所计算的统计量对该维度上的每一个元素赋予不同的权重，用以增强网络的特征表达能力。卷积层的特征维度包括通道维度C和空间维度HW。
Vgg16模型分析图片输出的向量维度可以改变吗？机器学习深度学习自然语言处理
2023-03-18 02:20

回答 5 已采纳参考GPT和自己的思路： Vgg16模型是一个预训练的深度卷积神经网络，它由若干个卷积层和池化层构成。在输入一张图片后，模型会输出一个特征向量，该向量的维度通常为1000，用来表示该图片的分类信息。这
注意力机制与LSTM的结合
2024-04-26 13:17

AI天才研究院的博客长短期记忆网络（LSTM）是一种特殊类型的循环神经网络（RNN），能够学习长期依赖关系。LSTM在许多序列建模任务中表现出色，如...将注意力机制与LSTM相结合，能够使模型在生成序列的每个时间步，根据当前的隐藏状态和
理解注意力机制与图神经网络
2023-08-08 01:14

AI天才研究院的博客其中比较火热的就是基于注意力机制的图神经网络(GNN)模型。本文将对GNN模型的相关知识进行全面解析，并用实际案例加以阐述，帮助读者了解该模型的研究价值及其应用场景。人类在不同的情景下会产生不同的注意力焦点。...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 3月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金15元 3月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月20日

悬赏问题

¥15 如何让子窗口鼠标滚动独立，不要传递消息给主窗口
¥15 如何能达到用ping0.cc检测成这样？如图
¥15 关于#DMA固件#的问题，请各位专家解答！
¥15 matlab生成的x1图不趋于稳定，之后的图像是稳定的水平线
¥15 请问华为OD岗位的内部职业发展通道都有哪些，以及各个级别晋升的要求
¥20 微信小程序 canvas 问题
¥15 系统 24h2 专业工作站版，浏览文件夹的图库，视频，图片之类的怎样删除？
¥15 怎么把512还原为520格式
¥15 MATLAB的动态模态分解出现错误，以CFX非定常模拟结果为快照
¥15 求高通平台Softsim调试经验

注意力机制的维度和时间步应用

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新