Good Note 2025-01-28 16:34 采纳率: 100%
浏览 2
已结题

Sora任意尺寸视频生成秘诀是什么?

详细解读多模态论文NaViT(Native Resolution ViT),将来自不同图像的多个patches打包成一个单一序列——称为Patch n’ Pack——从而实现可变分辨率并保持长宽比。

  • 写回答

3条回答 默认 最新

  • 好评笔记 2025-01-28 16:35
    关注

    论文
    摘要

    1. 引言
    2. 方法
    3. 1 架构变化
    4. 2 训练变化
    5. 3 NaViT的效率
    6. 实验
    7. 1 提高训练效率和性能
    8. 2 可变分辨率的好处
    9. 3 可变标记丢弃的好处
    10. 4 位置嵌入
    11. 5 NaViT性能的其他方面
    12. 6 其他下游任务
    13. 相关工作
    14. 结论和未来工作
      热门专栏
      机器学习
      深度学习
      论文
      论文名:Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
      论文链接:https://arxiv.org/pdf/2307.06304

    ————————————————

                            版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
                        
    

    原文链接:https://blog.csdn.net/haopinglianlian/article/details/145383572

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 2月5日
  • 已采纳回答 1月28日
  • 创建了问题 1月28日