Good Note 2025-01-26 11:02 采纳率: 100%
浏览 15
已结题

中国人民大学视频生成模型——VDT(与之后的Sora最接近的架构) 是什么?

解读多模态论文《VDT》,首次在视频扩散的生成模型中使用Transformer,这和后面的Sora架构最接近。

  • 写回答

4条回答 默认 最新

  • 好评笔记 2025-01-26 11:03
    关注

    论文
    摘要
    1 引言
    近期研究
    Transformer在视频领域的优势
    本文工作
    2 相关工作
    2.1 扩散模型
    2.2 视频生成和预测
    3 方法
    3.1 总体框架
    3.2 视频预测的条件视频生成方案
    3.3 统一的时空掩码建模
    4 实验
    4.1 数据集与设置
    4.2 分析
    4.3 与最先进方法的比较
    5 结论
    热门专栏
    机器学习
    深度学习
    论文
    论文名:VDT: GENERAL-PURPOSE VIDEO DIFFUSION TRANSFORMERS VIA MASK MODELING
    论文链接:https://arxiv.org/pdf/2305.13311
    项目地址:https://VDT - 2023.github.io
    ————————————————

                            版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
                        
    

    原文链接:https://blog.csdn.net/haopinglianlian/article/details/145366245

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(3条)

报告相同问题?

问题事件

  • 系统已结题 2月3日
  • 已采纳回答 1月26日
  • 创建了问题 1月26日