目录
一、概述
动机:以往的3D空间理解的大型多模态模型,要么依赖外部深度传感器(比如MultiPLY),要么依赖预建的3D地图(比如3D-LLM),导致无法泛化到依赖单目视频输入,如果依赖单目视频也需要转换成上述两种方法,不仅无法端到端损失了细节,且计算效率很低。
本文则通过单目视频提取隐式3D表征,无需深度传感器或预先离线重建地图。
(1)提出了VLM-3R,首个直接从单目RGB视频中实现推理和视觉引导的VQA三维视觉语言框架
(2)提出最大规模的3D重建指令集,基于ScanNet/ARKitScenes等3D数据集构建时空场景图,并涵盖8类任务QA对(物体尺寸,绝对距离,路径规划等),共20w数据。
(3)提出视觉-时间-空间Benchmark,旨在不仅能让agent回答全局性的推理问题,也要对摄像机,物体随时间的演变的关系进行推理。包含相机位移,相机与物体交互,物体相对运动的任务。
二、架构
VLM-3R相比于以往的MLLM方法来说,多了一个Spatial Encoder和Spatial-Visual-View Fusion模块,用于理解空间的建模信息。
VLM-3R包含两个Encoder用于单目视频帧的编码,并且二者均为预训练模型,分别提取全局2D信息和3D几何和相机信息,训练时均冻结参数。另有一个融合模块负责融合2D特征和3D特征。

视频帧编码
视觉编码器,采用SigLip-so400m-patch14-384,来自于LLaVA-Video-7B-Qwen2训练过的视觉编码器。输入视频帧,输出2D appearance tokens
,每帧576tokens+153个补0。
空间编码器,使用CUT3R,处理同帧生成的两类隐式3D表征
,其中
为编码物体深度和尺寸的Geometry Tokens。
为编码相机位姿变化的View tokens。
文本嵌入
同样利用LLaVA-Video-7B-Qwen2训练好的Qwen tokenizer,输出文本token。
多模态融合层
首先geometry tokens与view tokens合并,得到。之后通过注意力机制,将2Dtokens和3D特征融合。将2D tokens投影到
,3D特征投影到
,得到融合特征
。

之后利用两层MLP将 投影到LMM输入的维度
,并且与
拼接作为多模态大模型额输入序列。
推理层
基于LLaVA-NeXT-Video-7B的Qwen2语言模型。
训练过程
冻结所有预训练模型,包括LLaVA-NeXT-Video-7B的visual encoder,LMM,text tokenizer,以及添加进来的spatial encoder(Cut3R),仅训练跨注意力层+MLP,并且采用LLaVA-NeXT-Video同样的训练目标。为保证高效自适应,引入了LoRA来进行微调。
三、数据
由于以往的基准VSI-Bench依赖于人工标注,且数据量少仅有5000pairs,另外以往的商业大模型如GPT-4,在基础空间任务中,表现较弱,也就是没有这方面知识学习过。所以本文构建了一个20wQA对的3D空间指令数据集,用于训练VLM-3R的空间推理能力。
数据集来自于ScanNet(室内场景点云,带有物体语义标注),ScanNet++(高精度扫描,提供3D bbox),ARKitScnens(移动设备RGB-D视频,包含相机位姿)在VSI-Bench上的8个核心任务中7个开发了QA的数据(物体计数,相对距离,相对方向,外观顺序,物体尺寸,绝对距离,房间大小)。
这7个QA数据的基础来自于一个建立好的时空场景图,在场景图中每一帧作为时间节点存在,并且存放着每一个实例在每个时间下的全局和局部状态,以及与相机的关联关系。
而另外的一个任务路径规划问题,则通过Habitat仿真生成轨迹,最后生成4225条路径规划对,加上之前的7个QA任务共207779对数据,比VSI-Bench扩大了40倍。
四、VSTI-Bench
包含五类时空任务,共138.6KQA对,包括相机位移,相机移动方向,物体相对相机的距离变化,物体相对相机的方位演变,物体相对位置。
任务分为帧级任务和序列级任务,帧级任务,单一帧内时空状态的快照所推理出的信息,比如第一帧相机和xx物体间距离,序列级任务,跨多帧之间的聚合推理,比如相机的运动轨迹。
数据基础,同样依赖于ScanNet,ScanNet++,ARKitScnens生成的时空场景图,并自动化生成推理QA对数据。
评估指标,数值答案和分类答案,数值答案使用MRA(Mean Relative Accuracy),通过多容错率来平均提升鲁棒性。分类答案则使用标准的准确率计算。

参考论文:[2505.20279] VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction
1067

被折叠的 条评论
为什么被折叠?



