aaazbai 2022-12-13 11:59 采纳率: 78.6%
浏览 21
已结题

如何通俗理解VIT?

卷积我清楚,对RGB的数值矩阵用卷积核来提取特征,但Transformer的QKV是如何实现图像检测的?

QK计算投影后,用softmax来保留需要的特征并舍弃不需要的区域,以此提取特征的么?

  • 写回答

2条回答 默认 最新

查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 3月9日
  • 已采纳回答 3月1日
  • 创建了问题 12月13日