中国人民大学视频生成模型——VDT（与之后的Sora最接近的架构）是什么？

解读多模态论文《VDT》，首次在视频扩散的生成模型中使用Transformer，这和后面的Sora架构最接近。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
好评笔记 2025-01-26 11:03
关注
论文
摘要
1 引言
近期研究
Transformer在视频领域的优势
本文工作
2 相关工作
2.1 扩散模型
2.2 视频生成和预测
3 方法
3.1 总体框架
3.2 视频预测的条件视频生成方案
3.3 统一的时空掩码建模
4 实验
4.1 数据集与设置
4.2 分析
4.3 与最先进方法的比较
5 结论
热门专栏
机器学习
深度学习
论文
论文名：VDT: GENERAL-PURPOSE VIDEO DIFFUSION TRANSFORMERS VIA MASK MODELING
论文链接：https://arxiv.org/pdf/2305.13311
项目地址：https://VDT - 2023.github.io
————————————————

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/haopinglianlian/article/details/145366245
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

中国人民大学视频生成模型——VDT（与之后的Sora最接近的架构）
2025-01-26 10:29

好评笔记的博客本文详细解读多模态论文《VDT》，首次在视频扩散的生成模型中使用Transformer，这和后面的Sora架构最接近。
视频生成Sora的全面解析：从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等
2024-02-18 22:49

v_JULY_v的博客真没想到，举例视频生成上一轮的集中爆发才过去三个月，没想OpenAI一出手，该领域又直接变天了自打2.16日OpenAI发布sora以来，不但把同时段Google发布的Gemmi Pro 1.5干没了声音，而且网上各个渠道，大量新闻媒体、...
视频生成模型Sora的全面解析：从AI绘画、ViT到ViViT、DiT、VDT、NaViT、VideoPoet
2024-03-04 15:54

AI周红伟的博客 sora技术原理
文生视频大模型Sora的复现经验
2024-03-28 08:00

herosunly的博客本文主要介绍了文生视频大模型Sora的复现经验，希望能够对学习大模型的同学们有所帮助。文章目录 1. 前言 2. 类 Sora 模型 3. 先于 DiT 的技术架构创新 4. VDT 5. Sora 是世界模型吗？ 6. 嘉宾阵容 7. 视频生成...
ICLR 2024 | 国内高校打造类Sora模型VDT，通用视频扩散Transformer
2024-02-26 12:37

PaperWeekly的博客 ©作者 |机器之心编辑部来源 |机器之心2 月 16 日，OpenAI Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构，和市面上大部分主流方法（由 2D Stable Diffusion 扩展）并不...
Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT：近频繁用于视频生成与机器人动作预测(含清华PAD详解)
2024-12-29 00:20

v_JULY_v的博客本文最开始属于此文《视频生成Sora的全面解析：从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等》但考虑到DiT除了广泛应用于视频生成领域中，在机器人动作预测也被运用的越来越多，加之DiT确实是一个比较大的创新，...
多模态论文笔记——VDT
2025-01-26 10:27

好评笔记的博客本文详细解读多模态论文《VDT》，首次在视频扩散的生成模型中使用Transformer，这和后面的Sora架构最接近。
大模型/ChatGPT/AIGC、论文审稿、具身智能、RAG等11大系列集锦
2024-09-26 11:08

大模型八哥的博客学术论文GPT的源码解读与二次开发：从ChatPaper到gpt_academic// 待更…
人大系初创与OpenAI三次“撞车”：类Sora架构一年前已发论文
2024-03-07 14:59

IT界那些事儿的博客我们最近听说了个超级戏剧性的故事，就在中国，就是Sora出世前，他们拿着一篇如今被ICLR 2024接收的论文，十分费劲地为投资人、求知者讲了大半年，却处处碰壁。春节后，打电话来约见团队的投资人排起了长队，都是要...
世界模型（World Models）才是自动驾驶终极目标吗？
2024-08-12 07:30

自动驾驶之心的博客自2023年特斯拉、Wayve相继发布World Models，世界模型便凭借强大的环境理解能力，成为自动驾驶领域前沿热点，研究主要集中于场景生成和预测规控等方面，由此涌现出一批基于世界模型的端到端、2D/3D生成方法，从CVPR...
Sora~合集1
2024-03-17 18:37

whaosoft143的博客什么是直观物理学呢？对于人类而言，不仅仅是受过训练的物理学家，还包括外行甚至是婴儿，这些人都对物理世界有直观的理解。这就是认知科学家称为直观物理学的东西：一种快速、自动的日常推理，让人们知道各种物体...
[每日AI·0430]首个自主更新的多模态大模型，马斯克访华，文本一键转3D数字人骨骼动画，创新的虚拟试衣模型
2024-05-03 17:47

老牛同学的博客最近，大语言模型（LLMs）取得了显著成就，但它们容易受到某些越狱攻击的影响，导致生成不当或有害内容。手动红组测试需要找到导致越狱的敌对提示，例如在给定指令后附加后缀，效率低且耗时。在另一方面，自动敌对...
RDT——清华开源的双臂机器人“扩散动作大模型”(基于DiT改造而成)：先预训练后微调，支持语言、图像、动作多种输入
2024-11-02 00:31

v_JULY_v的博客此外，在实践中，我们倾向于一次性预测一...此外，值得强调的是，他们的目标是利用多机器人数据来增强模型在双手操作中的普适性，而不是开发用于各种机器人的跨实体模型。的维度比图像低得多，只需要最小的采样开销。
VDT~~
2024-02-24 20:57

whaosoft143的博客有趣的是，除 text-to-video 外，OpenAI 也展示了 Sora 非常惊艳的其他任务，包括基于 image 生成，前后 video predict 以及不同 video clip 相融合的例子等，和研究者提出的 Unified Spatial-Temporal Mask ...
多模态论文笔记——DiT（Diffusion Transformer）
2024-11-28 10:30

好评笔记的博客本文详细介绍Transformer架构图像生成方面的应用，将Diffusion和Transformer结合起来的模型：DiT。目前DiT已经成为了AIGC时代的新宠儿，视频和图像生成不可缺少的一部分。
DiT（Diffusion Transformer）详解——AIGC时代的新宠儿
2024-12-10 10:12

好评笔记的博客本文详细介绍AIGC时代的新宠儿DiT，Transformer和Diffusion结合起来的，图像和视频生成的领域的必备结构。
人大卢志武：只要拿到更多算力，超过Sora也不是那么难的事｜中国AIGC产业峰会...
2024-05-02 12:36

QbitAl的博客编辑部整理自凹非寺量子位 | 公众号 QbitAI一支人大系大模型团队，前后与OpenAI进行了三次大撞车！第一次是与Clip，第二次是与GPT-4V，最新一次撞在了Sora上：去年5月，他们联合并联合伯克利、港大等单位于在arXiv...
程序员面试、算法研究、机器学习、大模型/ChatGPT/AIGC、论文审稿、具身智能/人形机器人、RAG等16大系列集锦
2011-06-14 12:11

v_JULY_v的博客程序员面试、算法研究、编程艺术、红黑树、机器学习5大经典原创系列集锦与总结作者：July--结构之法算法之道blog之博主。时间：2010年10月-2018年5月，一直在不断更新中.. 出处：...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月26日

中国人民大学视频生成模型——VDT（与之后的Sora最接近的架构） 是什么？

4条回答 默认 最新

问题事件

中国人民大学视频生成模型——VDT（与之后的Sora最接近的架构）是什么？

4条回答默认最新