解读多模态论文《VDT》,首次在视频扩散的生成模型中使用Transformer,这和后面的Sora架构最接近。
4条回答 默认 最新
- 好评笔记 2025-01-26 11:03关注
论文
摘要
1 引言
近期研究
Transformer在视频领域的优势
本文工作
2 相关工作
2.1 扩散模型
2.2 视频生成和预测
3 方法
3.1 总体框架
3.2 视频预测的条件视频生成方案
3.3 统一的时空掩码建模
4 实验
4.1 数据集与设置
4.2 分析
4.3 与最先进方法的比较
5 结论
热门专栏
机器学习
深度学习
论文
论文名:VDT: GENERAL-PURPOSE VIDEO DIFFUSION TRANSFORMERS VIA MASK MODELING
论文链接:https://arxiv.org/pdf/2305.13311
项目地址:https://VDT - 2023.github.io
————————————————版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/haopinglianlian/article/details/145366245
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 1无用