详细解读多模态论文NaViT(Native Resolution ViT),将来自不同图像的多个patches打包成一个单一序列——称为Patch n’ Pack——从而实现可变分辨率并保持长宽比。
3条回答 默认 最新
好评笔记 2025-01-28 16:35关注论文
摘要- 引言
- 方法
- 1 架构变化
- 2 训练变化
- 3 NaViT的效率
- 实验
- 1 提高训练效率和性能
- 2 可变分辨率的好处
- 3 可变标记丢弃的好处
- 4 位置嵌入
- 5 NaViT性能的其他方面
- 6 其他下游任务
- 相关工作
- 结论和未来工作
热门专栏
机器学习
深度学习
论文
论文名:Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
论文链接:https://arxiv.org/pdf/2307.06304
————————————————
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。原文链接:https://blog.csdn.net/haopinglianlian/article/details/145383572
本回答被题主选为最佳回答 , 对您是否有帮助呢?评论 打赏 举报解决 1无用