video swin transformer的全连接层在哪个代码里面

video swin transformer(mmaction)的全连接层在哪个代码里面

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-04-16 22:49
关注
这篇博客: 【代码解析】mmaction2: Video Swin Transformer中的 1.2 解析 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:

SwinTransformer3D

patch_embed: PatchEmbed3D
将输入三维信号切分成多个3d-patch，patch_size默认(2,4,4)，对每个patch使用3d-conv进行特征提取并降采样
padding：对无法被patch_size整除维度进行填零padding
self.proj = conv3d(3, 96, kernel_size = patch_size, stride=patch_size)：对输入特征进行三维卷积，即对每个patch_size大小窗口的输入进行特征提取，每个patch_size输出一个96维特征
norm(optional): fllatten + transpose + layer_norm(对channel维度进行norm，即对每个patch_size的96维特征进行归一化)+transpose

pos_drop: nn.Drop

self.layers : depths [2, 2, 6, 2] 多个BasicLayer进行串联

BasicLayer 进一步对上层输出信号切分成多个3d-window，window_size默认(8,7,7)，对patch和patch之间的特征关联进行信息提取
get_window_size((D,H,W), window_size=(8,7,7), shift_size=(4,3,3))
rearrange(x, 'b c d h w -> b d h w c')
self.attn_mask = compute_mask(Dp, Hp, Wp, window_size, shift_size, x.device) 根据输入尺度和window_size生成transformer中的mask，对非自身window的特征关联信息进行抑制

nn.ModuleList(SwinTransformerBlock3D(for i in range(depth)])多个SwinTransformerBlock3D进行串联 (B,D,H,W,C)

nn.LayerNorm
F.pad
torch.roll(optional)
x_windows = window_partition: shape (B*nW, Wd*Wh*Ww, C) window切分
attn_windows = self.attn(x_windows, mask=attn_mask): WindowAttention3D 对window内部进行self-attention特征提取, shape (B*nW, Wd*Wh*Ww, C)
nn.Linear(dim, dim * 3, bias=qkv_bias) 将输入升维三倍
q, k, v = qkv[0], qkv[1], qkv[2] 提取K,Q,V特征

q * self.scale = head_dim ** -0.5根据head_num进行缩放，防止multi-head大小对信号量影响过大
attn = q @ k.transpose(-2, -1) 内积

attn + relative_position_bias: relative_position_bias_table 加入位置编码(防止特征顺序对transformer模块失效，不参与学习)
attn.view(B_ // nW, nW, self.num_heads, N, N) + mask 加入关联特征激活/抑制mask，这里mask就是之前提取的self.attn_mask
self.softmax(attn) + self.attn_drop(attn) Transformer标准模块
x = (attn @ v) Transformer标准模块
self.proj = nn.Linear(dim, dim) + self.proj_drop = nn.Dropout(proj_drop) Transformer标准模块
x = shortcut + self.drop_path(x) FFN模块

downsample: PatchMerging 对输出特征进行重排，H和W变为1/2(不对D进行降采样)，channel会变成4倍

对H和W进行间隔采样
norm: nn.LayerNorm
nn.Linear(4 * dim, 2 * dim) channel降维

rearrange(x, 'b d h w c -> b c d h w')

rearrange + norm + rearrange

Swin-trans参数膨胀
inflate_weights

patch_embed 中的conv3d选择直接膨胀初始化conv2d
relative_position_bias_table 两种：膨胀初始化、中心初始化
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

video swin transformer的num classes在哪里修改呀人工智能
2023-03-22 21:52

回答 1 已采纳通常在训练的配置文件中设置num_classes参数，具体位置取决于你使用的训练脚本。在 Video Swin Transformer 中，你可以在 configs/recognition/swin/
更改video swin transformer的损失函数 transformer 深度学习
2023-03-30 17:47

回答 2 已采纳 import torch.nn as nn import torch.optim as optim # 定义自定义损失函数 def custom_loss_function(output, tar
关于Swin Transformer官方代码中，WindowAttention模块中的self.proj的作用 transformer 深度学习计算机视觉
2023-02-13 14:41

回答 1 已采纳方案来自梦想橡皮擦狂飙组基于 GPT 编写的 “程秘” self.proj 是一个全连接层，在 SWIN Transformer 模型的 WindowAttention 模块中使用。它的作用是对
swin-transformer详解及代码复现
2022-04-03 18:29

apodxxx的博客 1. swin-transformer网络结构实际上，我们在进行代码复现时应该是下图,接下来我们根据下面的图片进行分段实现 2. Patch Partition & Patch Embedding 首先将图片输入到Patch Partition模块中进行分块，即...
基于swin transformer的毕设 transformer
2022-11-15 11:37

回答 3 已采纳是有足够时间让你完成。首先swin的理论还是基于卷积神经网络，其次swin的大热，也让它的源码处处可见可查。
swin transformer训练数据集如何添加负样本人工智能深度学习目标检测
2023-03-17 18:46

回答 7 已采纳参考GPT和自己的思路，1.添加负样本的方法负样本是指不属于目标类别的样本，一般用于训练分类器或检测器来增加模型的泛化能力。添加负样本的方式可以是随机采样、手动选择或者从其他数据集中选择。在训练过程中
关于#transformer#的问题：transformer在SISR的问题，训练时图像小，test时可以直接对高分辨率图像处理 pytorch transformer 超分辨率重建
2023-02-01 19:33

回答 1 已采纳 Transformer模型在SISR问题中的特殊之处在于它使用了self-attention机制来捕捉图像中的长距离依赖关系，因此它可以处理任意大小的图像。在训练时使用的小图像可以避免内存问题，但是训
Swin transformer v2和Swin transformer v1源码对比
2022-11-10 20:29

樱花的浪漫的博客在此只解析v1和v2的区别。
关于模型的参数量计算问题 cnn 人工智能深度学习
2023-03-19 21:49

回答 2 已采纳参考GPT和自己的思路：可能是因为算法和计算参数量的方法不一样导致的。官方文档提供的参数量估计可能是基于模型结构和每个层的参数数量来估计的，而使用pytorch自带的方法计算参数量可能是考虑了某些参
upernet辅助分支的输入是什么人工智能深度学习神经网络
2023-03-20 14:31

回答 2 已采纳参考GPT和自己的思路：在 Swin Transformer 和 UperNet 结构中，UperNet 的辅助分支的输入是来自 BackBone 中 Stage3 的特征图。这是因为在神经网络中，
如何提升yolov 5对遥感图像目标检测的精度 pytorch 人工智能目标检测
2023-04-03 22:32

回答 2 已采纳数据集问题：如果使用的数据集中包含的小目标较少或者标注不够准确，那么就会对模型的训练产生很大的影响，从而导致精度提升不明显。模型设计问题：虽然您已经尝试了使用注意力机制、增加小目标检测层等方法，但是
Swin Transformer详解
2022-04-28 19:02

CV算法恩仇录的博客 “Swin Transformer: Hierarchical Vision Transformer using Shifted Window”是微软亚洲研究院（MSRA）发表在arXiv上的论文，文中提出了一种新型的Transformer架构，也就是Swin Transformer。本文旨在对Swin ...
java swin 窗体透明（我想做不规则窗体哒） java
2017-04-11 07:47

回答 1 已采纳 AWTUtilities.setWindowOpaque(frame, false); 窗体去掉外边框，实现如下：http://blog.csdn.net/ljheee/article/de
Swin Transformer
2023-06-24 13:39

有温度的AI的博客浅记录Swin Transformer学习过程（不好理解）！！！
30_Swin-Transformer网络结构详解
2024-07-19 17:53

江畔柳前堤的博客 https://www.bilibili.com/video/BV1pL4y1v7jC/?spm_id_from=333.999.0.0&vd_source=7dace3632125a1ef7fd32c285eb2fbac
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月16日

悬赏问题

¥15 有偿求苍穹外卖环境配置
¥15 代码在keil5里变成了这样怎么办啊，文件图像也变了，
¥20 Ue4.26打包win64bit报错，如何解决？(语言-c++)
¥15 clousx6整点报时指令怎么写
¥30 远程帮我安装软件及库文件
¥15 关于#自动化#的问题：如何通过电脑控制多相机同步拍照或摄影（相机或者摄影模组数量大于60），并将所有采集的照片或视频以一定编码规则存放至规定电脑文件夹内
¥20 深信服vpn-2050这台设备如何配置才能成功联网？
¥15 Arduino的wifi连接，如何关闭低功耗模式？
¥15 Android studio 无法定位adb是什么问题？
¥15 C#连接不上服务器，

video swin transformer的全连接层在哪个代码里面

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新