Sora任意尺寸视频生成秘诀——NaViT（原生分辨率 ViT）是什么？

在训练过程中采用序列封装的方式处理任意分辨率和纵横比的输入，除了具备灵活性的模型应用外，还展示了通过大规模监督和contrastive image-text pretraining来提高训练效率。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
好评笔记 2025-01-31 18:39
关注
论文
摘要

引言

方法

1 架构变化

2 训练变化

3 NaViT的效率

实验

1 提高训练效率和性能

2 可变分辨率的好处

3 可变标记丢弃的好处

4 位置嵌入

5 NaViT性能的其他方面

6 其他下游任务

相关工作

结论和未来工作
热门专栏
机器学习
深度学习
论文
论文名：Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
论文链接：https://arxiv.org/pdf/2307.06304
————————————————

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/haopinglianlian/article/details/145383572
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

【大模型科普】大模型：人工智能的前沿（一文读懂大模型）
2025-04-24 19:50

AI大模型-海文的博客在数字化浪潮汹涌澎湃、日新月异的当今时代，大模型犹如一颗璀璨...大模型不仅是人工智能技术发展历程中的一个重大突破和里程碑式的成就，更是推动全球经济持续增长、提升社会治理效能、加速科技创新步伐的关键力量。
AIGC时代算法工程师的面试秘籍（2024.6.24-7.7第十七式） |【三年面试五年模拟】
2024-07-16 00:44

Rocky Ding*的博客【三年面试五年模拟】将陪伴大家度过整个AI行业职业生涯。
大模型系列——大模型：人工智能的前沿
2025-03-19 21:46

猫猫姐的博客在数字化浪潮汹涌澎湃、日新月异的当今时代，大模型犹如一颗璀璨...大模型不仅是人工智能技术发展历程中的一个重大突破和里程碑式的成就，更是推动全球经济持续增长、提升社会治理效能、加速科技创新步伐的关键力量。
51c大模型~合集95
2024-12-24 10:52

whaosoft-143的博客 #纽约大学教授感受到了AI博士生的焦虑与挫败 2024 年 12 月 10-15 日，今年度的 NeurIPS 已在加拿大温哥华成功举办。...该会议也展现了人工智能领域的研究盛况 —— 本届 NeurIPS 共收到 15671 篇有效论文
51c大模型~合集124
2025-05-05 12:23

whaosoft-143的博客昨日，会议主办方公布了本年度时间检验奖，授予 UCSD 与微软研究院合著的论文《Deeply-Supervised Nets》（深度监督网络），共同一作分别为 Chen-Yu Lee（现为谷歌研究科学家）和 AI 圈所熟知的谢赛宁（现为纽约大学...
51c大模型~合集112
2025-02-13 00:15

whaosoft-143的博客在 AG2 中，他们设计了一种新颖的搜索算法，可以并行执行多个不同配置的...更快的数据生成可以达成更大规模、更积极的数据过滤，而更快的证明搜索可以实现更广泛的搜索，从而增加给定时间预算内找到解决方案的可能性。
【大模型科普】大模型：人工智能的前沿（一文读懂大模型）_大模型前沿技术
2025-04-17 18:54

程序员一粟的博客在数字化浪潮汹涌澎湃、日新月异的当今时代，大模型犹如一颗璀璨...大模型不仅是人工智能技术发展历程中的一个重大突破和里程碑式的成就，更是推动全球经济持续增长、提升社会治理效能、加速科技创新步伐的关键力量。
深入浅出全面解析AIGC时代核心价值与发展趋势（2025年版）
2025-04-04 19:08

Rocky Ding*的博客与前三次革命不同，AIGC革命的核心在于创造了全新的效率工具——生成式人工智能。它不仅仅是生产效率的提升，更是创造力的解放。通过AIGC，计算机不仅能够执行重复性任务，还能够生成全新的内容，甚至具备一定的创造...
AIGC时代算法工程师的面试秘籍（第二十一式2024.8.19-9.1） |【三年面试五年模拟】
2024-09-01 17:10

Rocky Ding*的博客【三年面试五年模拟】将陪伴大家度过整个AI行业职业生涯。
深入浅出完整解析Stable Diffusion 3（SD 3）和FLUX.1系列核心基础知识
2025-04-12 16:11

Rocky Ding*的博客 Rocky对Stable Diffusion 3（SD 3）的本质总结：虽然Stable Diffusion 3只开源了medium版本，最大的8B参数版本并没有开源，但是SD 3所展现的很多改进思想和优化方法会像AI视频领域的Sora一样，给整个AI绘画领域...
51c大模型~合集65
2025-04-13 00:41

whaosoft-143的博客数据集的格式要求在不同的阶段是不同的，本教程以sft阶段的数据集需求，将以系统自带的identity数据集和将自定义的一个商品文案生成数据集为例，介绍数据集的使用。更多详情可以在 ...
w~大模型~合集29
2025-02-12 03:00

whaosoft-143的博客本次 Tripo AI 和 Stability AI 联合共同推出了首个 LRM 的高质量开源实现 - TripoSR，可以几乎实时根据用户提供的图像生成高质量的三维模型，极大地填补了 3D 生成式人工智能领域的一个关键空白。根据 Stability ...
51c大模型~合集15
2024-11-06 11:51

whaosoft-143的博客 2 月份 Sora 推出后，生数科技内部成立攻坚小组，加快了原本视频方向的研发进度，不到一个月的时间，内部就实现了 8 秒的视频生成，紧接着 4 月份就突破了 16 秒生成，生成质量与时长全方面取得突破。
51c多模态~合集2
2024-10-30 22:44

whaosoft-143的博客写到这里，吐一口老血，但还是要总结一下。本文梳理了2019年之后视觉表征和多...关于未来畅想，从最近的工作上来看，多模态的呈现出以大模型为主线，逐步开始朝长上下文、混合模态、世界模型、多模态生成等方向发展。
51c自动驾驶~合集35
2024-11-28 09:47

whaosoft-143的博客是一种可扩展且环境无关的方法，用于生成无需特权(privileged)环境信息的零样本机器人任务演示。
51c大模型~合集101
2025-01-07 03:00

whaosoft-143的博客在一篇新博客中，来自 HuggingFace 的研究者讨论了可能造成这一问题的原因之一 ——tokenization，并重点分析了它如何影响模型的数学能力，尤其是算术能力。回顾 Tokenization 早在 2019 年，GPT-2 论文就详细介绍...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月31日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月31日

Sora任意尺寸视频生成秘诀——NaViT（原生分辨率 ViT）是什么？

3条回答 默认 最新

问题事件

3条回答默认最新