LRJ-jonas 2022-11-21 14:28 采纳率: 37.5%
浏览 7
已结题

多头注意力是怎么分割的?

问题

Multi-head attention进行分割时,是如何分割的?为什么这样做?

代码

Parameters:
x: Tensor
A tensor with shape [batch_size, seq_length, depth]
Returns:
A tensor with shape [batch_size, num_heads, seq_length, depth / num_heads]

我想要达到的结果

想要图解

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 11月29日
    • 创建了问题 11月21日

    悬赏问题

    • ¥15 执行 virtuoso 命令后,界面没有,cadence 启动不起来
    • ¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
    • ¥20 有关区间dp的问题求解
    • ¥15 多电路系统共用电源的串扰问题
    • ¥15 slam rangenet++配置
    • ¥15 有没有研究水声通信方面的帮我改俩matlab代码
    • ¥15 ubuntu子系统密码忘记
    • ¥15 保护模式-系统加载-段寄存器
    • ¥15 电脑桌面设定一个区域禁止鼠标操作
    • ¥15 求NPF226060磁芯的详细资料