VLM-3R: Vision-Language Models Augmentedwith Instruction-Aligned 3D Reconstruction 论文解读

最新推荐文章于 2025-12-12 17:54:27 发布

原创最新推荐文章于 2025-12-12 17:54:27 发布 · 1.2k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #语言模型 #深度学习 #计算机视觉 #3d #图像理解 #视频理解

理解与生成专栏收录该内容

22 篇文章

订阅专栏

一、概述

动机：以往的3D空间理解的大型多模态模型，要么依赖外部深度传感器（比如MultiPLY），要么依赖预建的3D地图（比如3D-LLM），导致无法泛化到依赖单目视频输入，如果依赖单目视频也需要转换成上述两种方法，不仅无法端到端损失了细节，且计算效率很低。

本文则通过单目视频提取隐式3D表征，无需深度传感器或预先离线重建地图。

（1）提出了VLM-3R，首个直接从单目RGB视频中实现推理和视觉引导的VQA三维视觉语言框架

（2）提出最大规模的3D重建指令集，基于ScanNet/ARKitScenes等3D数据集构建时空场景图，并涵盖8类任务QA对（物体尺寸，绝对距离，路径规划等），共20w数据。

（3）提出视觉-时间-空间Benchmark，旨在不仅能让agent回答全局性的推理问题，也要对摄像机，物体随时间的演变的关系进行推理。包含相机位移，相机与物体交互，物体相对运动的任务。

二、架构

VLM-3R相比于以往的MLLM方法来说，多了一个Spatial Encoder和Spatial-Visual-View Fusion模块，用于理解空间的建模信息。

VLM-3R包含两个Encoder用于单目视频帧的编码，并且二者均为预训练模型，分别提取全局2D信息和3D几何和相机信息，训练时均冻结参数。另有一个融合模块负责融合2D特征和3D特征。

视频帧编码

视觉编码器，采用SigLip-so400m-patch14-384，来自于LLaVA-Video-7B-Qwen2训练过的视觉编码器。输入视频帧 $I_t \in \mathbb R^{3 \times 432 \times 432}$ ，输出2D appearance tokens $H_v \in \mathbb R^{729 \times 1152}$ ，每帧576tokens+153个补0。

空间编码器，使用CUT3R，处理同帧 $I_t$ 生成的两类隐式3D表征 $[F'_t,z'_t]$ ，其中 $F_t' \in \mathbb R^{729 \times 768}$ 为编码物体深度和尺寸的Geometry Tokens。 $z_t' \in \mathbb R^{1 \times 768}$ 为编码相机位姿变化的View tokens。

文本嵌入

同样利用LLaVA-Video-7B-Qwen2训练好的Qwen tokenizer，输出文本token $H_{instruct}$ 。

多模态融合层

首先geometry tokens与view tokens合并，得到 $Z_{3D}=Concat(F_t',z_t') \in \mathbb R^{730x768}$ 。之后通过注意力机制，将2Dtokens和3D特征融合。将2D tokens投影到 $W_q$ ，3D特征投影到 $W_k,W_v$ ，得到融合特征 $H_v' \in \mathbb R ^{729 \times 1152}$ 。

之后利用两层MLP将 $H_v' \in \mathbb R ^{729 \times 1152}$ 投影到LMM输入的维度 $R ^{729 \times 3584}$ ，并且与 $H_{instruct}$ 拼接作为多模态大模型额输入序列。

推理层

基于LLaVA-NeXT-Video-7B的Qwen2语言模型。

训练过程

冻结所有预训练模型，包括LLaVA-NeXT-Video-7B的visual encoder，LMM，text tokenizer，以及添加进来的spatial encoder（Cut3R）,仅训练跨注意力层+MLP，并且采用LLaVA-NeXT-Video同样的训练目标。为保证高效自适应，引入了LoRA来进行微调。

三、数据

由于以往的基准VSI-Bench依赖于人工标注，且数据量少仅有5000pairs，另外以往的商业大模型如GPT-4，在基础空间任务中，表现较弱，也就是没有这方面知识学习过。所以本文构建了一个20wQA对的3D空间指令数据集，用于训练VLM-3R的空间推理能力。

数据集来自于ScanNet（室内场景点云，带有物体语义标注），ScanNet++（高精度扫描，提供3D bbox），ARKitScnens（移动设备RGB-D视频，包含相机位姿）在VSI-Bench上的8个核心任务中7个开发了QA的数据（物体计数，相对距离，相对方向，外观顺序，物体尺寸，绝对距离，房间大小）。

这7个QA数据的基础来自于一个建立好的时空场景图，在场景图中每一帧作为时间节点存在，并且存放着每一个实例在每个时间下的全局和局部状态，以及与相机的关联关系。

而另外的一个任务路径规划问题，则通过Habitat仿真生成轨迹，最后生成4225条路径规划对，加上之前的7个QA任务共207779对数据，比VSI-Bench扩大了40倍。