Good Note 2025-01-31 18:39 采纳率: 100%
浏览 7
已结题

Sora任意尺寸视频生成秘诀——NaViT(原生分辨率 ViT)是什么?

在训练过程中采用序列封装的方式处理任意分辨率和纵横比的输入,除了具备灵活性的模型应用外,还展示了通过大规模监督和contrastive image-text pretraining来提高训练效率。

  • 写回答

3条回答 默认 最新

  • 好评笔记 2025-01-31 18:39
    关注

    论文
    摘要

    1. 引言

    2. 方法

    3. 1 架构变化

    4. 2 训练变化

    5. 3 NaViT的效率

    6. 实验

    7. 1 提高训练效率和性能

    8. 2 可变分辨率的好处

    9. 3 可变标记丢弃的好处

    10. 4 位置嵌入

    11. 5 NaViT性能的其他方面

    12. 6 其他下游任务

    13. 相关工作

    14. 结论和未来工作
      热门专栏
      机器学习
      深度学习
      论文
      论文名:Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
      论文链接:https://arxiv.org/pdf/2307.06304
      ————————————————

                           版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
      

    原文链接:https://blog.csdn.net/haopinglianlian/article/details/145383572

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 2月8日
  • 已采纳回答 1月31日
  • 创建了问题 1月31日