关于这篇论文的这个模块中说的是使用了注意力机制,查询与头实体h有关的邻居(r,e) 但是他给的计算公式看不懂,正常的注意力机制不都是要计算q,k,v的吗? 为什么这里没有计算q,k,v 反而是(r,e)乘一个线性变换矩阵W 再经过一个权重向量U,最后使用非线性变换LeakyReLU就可以获得绝对注意分数?
1条回答 默认 最新
相关推荐 更多相似问题
点击登录
提问题
悬赏问题
- ¥15 vivado如何支持多维打包数组模式
- ¥15 请问第13题到底应该怎么做
- ¥15 stable diffusion报错问题
- ¥20 数据可视化综合运用 导入npz文件以及读取内容
- ¥15 倒计时汇编语言RTC实时时钟
- ¥15 CCS安装出现Failed to create the part's controls
- ¥15 请问有digital Fortran编译器吗
- ¥15 用cst怎么仿真同轴馈线
- ¥15 如何在lammps中添加气液边界条件?
- ¥20 具有每日记账功能的简易日历程序