在写毕业论文的时候,阅读文献发现transformer的一系列视觉任务上超越了传统的cnn网络。于是便想将swin transformer作为主干网络,但是自己的数据集不是很大感觉不能发挥其全局建模的优势,如果只是比较小数据集的话shift ViT的也证明的自主意好像作用不大,用shift的操作就可以替换甚至有更好的效果。于是呢我便想将swin V2的掩码自监督引入。缓解这个数据集较小的问题。但是仔细思考之后感觉单纯的套用可能不一定能够超越传统模型不知道大家有没有做过对比能不能提一点意见。当然作为初学者我的提问可能存在一定不足,请见谅。
4条回答 默认 最新
- Jackyin0720 2022-11-25 20:44关注
提供一篇实例【基于SwinTransformer的目标检测训练模型学习总结】,以期望对你有所帮助:https://www.bbsmax.com/A/kjdwEVbwJN/
解决 无用评论 打赏 举报
悬赏问题
- ¥15 io.jsonwebtoken.security.Keys
- ¥15 急,ubuntu安装后no caching mode page found等
- ¥15 联想交换机NE2580O/NE1064TO安装SONIC
- ¥15 防火墙的混合模式配置
- ¥15 Ubuntu不小心注销了要怎么恢复啊
- ¥15 win10电脑安装完plcsim advanced4.0运行时为什么会提示找不到虚拟网卡
- ¥15 安装powerbuilder10卡在安装程序正在运行这个页面 没有下一步任何指令
- ¥15 关于mpi的问题:请问遇到这种情况需要怎么解决,出现这个问题后电脑不能进行mpi多核运行只能进行单核运行
- ¥50 微信聊天记录备份到电脑提示成功了,但还是没同步到电脑微信
- ¥15 python怎么在已有视频文件后添加新帧