视频多模态模型——视频版ViT是什么？

详细解读多模态论文《ViViT: A Video Vision Transformer》，2021由google 提出用于视频处理的视觉 Transformer 模型，在视频多模态领域有重要应用。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
好评笔记 2025-01-25 09:53
关注
论文
摘要

引言

相关工作

视频视觉Transformer

1 视觉Transformer（ViT）概述

2 嵌入视频片段
均匀帧采样
管块嵌入

3 视频的Transformer模型
模型1：时空注意力
模型2：分解编码器
模型3：分解自注意力
模型4：分解点积注意力

4 利用预训练模型进行初始化

实验

1 数据集

2 实现细节

3 结果

4 消融研究

结论
热门专栏
机器学习
深度学习
————————————————

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/haopinglianlian/article/details/145350284
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

视频多模态模型——视频版ViT
2025-01-25 09:13

好评笔记的博客本文详细解读多模态论文《ViViT: A Video Vision Transformer》，2021由google 提出用于**视频处理的视觉 Transformer 模型**，在**视频多模态**领域有重要应用。
【多模态】ViT模型技术学习
2024-10-10 23:31

威化饼的一隅的博客最近多模态模型特别火，一起从头学习ViT和Transformer！本文记录一下学习过程，所以是自上而下的写，从ViT拆到Transformer。
多模态大模型MLLM VIT CLIP BLIP
2024-05-06 10:32

数亦有术的博客 Transformer输入输出都是一个序列，若需要应用于视觉领域，则需要考虑如何将一个2d图片转化为一个1d的序列，最直观的想法将图片中的像素点输入到transformer中，模型训练中图片的大小是224*224=50176，而正常的bert...
AI知识补全（八）：多模态大模型是什么？
2025-03-29 22:11

Code_流苏的博客本文深入探讨多模态大模型的前沿发展，剖析GPT-4o、Claude 3.5等顶尖模型如何融合文本、图像、音频等多种数据，展示其在图像识别、视频分析等领域的革命性应用与未来发展方向。
多模态论文笔记——U-ViT
2025-01-05 10:51

好评笔记的博客本文详细介绍U-ViT的模型架构和实验细节，虽然没有后续的DiT在AIGC领域火爆，但为后来的研究奠定了基础，但其开创性的探索值得学习。
多模态论文笔记——ViT、ViLT
2024-11-27 20:55

好评笔记的博客本文详细介绍Transformer架构在计算机视觉方面的成功模型，将Transformer引入图像领域：ViT、ViLT。
【多模态】多模态模型实践——swift3框架使用
2024-12-21 14:32

威化饼的一隅的博客 swift3相比于swift2做了大升级，很多swift2能使用的在3里面error改改改…但是效率确实大升级，推理速度快了很多～～～
多模态大语言模型领域进展分享.pptx
2025-01-11 20:36

多模态大语言模型(Multimodal Large Language Models, MLLMs)是近年来人工智能领域发展迅速的一个分支。在传统的语言模型基础上，多模态大语言模型增加了对视觉和其他模态信息处理的能力，这使得模型能够处理更加...
多模态模型学习1——CLIP对比学习语言-图像预训练模型
2023-04-05 15:14

Bubbliiiing的博客该模型是 OpenAI 在 2021 年发布的，最初用于匹配图像和文本的预训练神经网络模型，这个任务在多模态领域比较常见，可以用于文本图像检索，CLIP是近年来在多模态研究领域的经典之作。该模型大量的成对互联网数据进行...
多模态——PALO包含 10 种语言的多模态模型算法解析
2024-04-21 09:35

知来者逆的博客本文开发了一种新的多语言大规模多模态模型 PALO。PALO 可将图像和文本查询作为输入，并能有效地与多种语言交互。它可以与多种语言进行交互。通过翻译 10 种语言的 150,000 条指令，并对每种语言进行 1,000 次人工...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月25日

视频多模态模型——视频版ViT是什么？

3条回答 默认 最新

问题事件

3条回答默认最新