详细解读多模态论文《ViViT: A Video Vision Transformer》,2021由google 提出用于视频处理的视觉 Transformer 模型,在视频多模态领域有重要应用。
3条回答 默认 最新
- 好评笔记 2025-01-25 09:53关注
论文
摘要引言
相关工作
视频视觉Transformer
1 视觉Transformer(ViT)概述
2 嵌入视频片段
均匀帧采样
管块嵌入3 视频的Transformer模型
模型1:时空注意力
模型2:分解编码器
模型3:分解自注意力
模型4:分解点积注意力4 利用预训练模型进行初始化
实验
1 数据集
2 实现细节
3 结果
4 消融研究
结论
热门专栏
机器学习
深度学习
————————————————版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/haopinglianlian/article/details/145350284
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 1无用