Good Note 2025-01-25 09:52 采纳率: 100%
浏览 2
已结题

视频多模态模型——视频版ViT是什么?

详细解读多模态论文《ViViT: A Video Vision Transformer》,2021由google 提出用于视频处理的视觉 Transformer 模型,在视频多模态领域有重要应用。

  • 写回答

3条回答 默认 最新

  • 好评笔记 2025-01-25 09:53
    关注

    论文
    摘要

    1. 引言

    2. 相关工作

    3. 视频视觉Transformer

    4. 1 视觉Transformer(ViT)概述

    5. 2 嵌入视频片段
      均匀帧采样
      管块嵌入

    6. 3 视频的Transformer模型
      模型1:时空注意力
      模型2:分解编码器
      模型3:分解自注意力
      模型4:分解点积注意力

    7. 4 利用预训练模型进行初始化

    8. 实验

    9. 1 数据集

    10. 2 实现细节

    11. 3 结果

    12. 4 消融研究

    13. 结论
      热门专栏
      机器学习
      深度学习
      ————————————————

                           版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
      

    原文链接:https://blog.csdn.net/haopinglianlian/article/details/145350284

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 2月2日
  • 已采纳回答 1月25日
  • 创建了问题 1月25日