VLM-3R: Vision-Language Models Augmentedwith Instruction-Aligned 3D Reconstruction 论文解读

目录

一、概述

二、架构

三、数据

四、VSTI-Bench


一、概述

        动机:以往的3D空间理解的大型多模态模型,要么依赖外部深度传感器(比如MultiPLY),要么依赖预建的3D地图(比如3D-LLM),导致无法泛化到依赖单目视频输入,如果依赖单目视频也需要转换成上述两种方法,不仅无法端到端损失了细节,且计算效率很低。

        本文则通过单目视频提取隐式3D表征,无需深度传感器或预先离线重建地图。

(1)提出了VLM-3R,首个直接从单目RGB视频中实现推理和视觉引导的VQA三维视觉语言框架

(2)提出最大规模的3D重建指令集,基于ScanNet/ARKitScenes等3D数据集构建时空场景图,并涵盖8类任务QA对(物体尺寸,绝对距离,路径规划等),共20w数据。

(3)提出视觉-时间-空间Benchmark,旨在不仅能让agent回答全局性的推理问题,也要对摄像机,物体随时间的演变的关系进行推理。包含相机位移,相机与物体交互,物体相对运动的任务。

二、架构

        VLM-3R相比于以往的MLLM方法来说,多了一个Spatial Encoder和Spatial-Visual-View Fusion模块,用于理解空间的建模信息。

        VLM-3R包含两个Encoder用于单目视频帧的编码,并且二者均为预训练模型,分别提取全局2D信息和3D几何和相机信息,训练时均冻结参数。另有一个融合模块负责融合2D特征和3D特征。

        视频帧编码

        视觉编码器,采用SigLip-so400m-patch14-384,来自于LLaVA-Video-7B-Qwen2训练过的视觉编码器。输入视频帧I_t \in \mathbb R^{3 \times 432 \times 432},输出2D appearance tokens H_v \in \mathbb R^{729 \times 1152},每帧576tokens+153个补0。

        空间编码器,使用CUT3R,处理同帧I_t生成的两类隐式3D表征[F'_t,z'_t],其中F_t' \in \mathbb R^{729 \times 768}为编码物体深度和尺寸的Geometry Tokens。z_t' \in \mathbb R^{1 \times 768}为编码相机位姿变化的View tokens。

        文本嵌入

        同样利用LLaVA-Video-7B-Qwen2训练好的Qwen tokenizer,输出文本tokenH_{instruct}

        多模态融合层        

        首先geometry tokens与view tokens合并,得到Z_{3D}=Concat(F_t',z_t') \in \mathbb R^{730x768}。之后通过注意力机制,将2Dtokens和3D特征融合。将2D tokens投影到W_q,3D特征投影到W_k,W_v,得到融合特征H_v' \in \mathbb R ^{729 \times 1152}

        之后利用两层MLP将 H_v' \in \mathbb R ^{729 \times 1152}投影到LMM输入的维度R ^{729 \times 3584},并且与H_{instruct}拼接作为多模态大模型额输入序列。

        推理层

        基于LLaVA-NeXT-Video-7B的Qwen2语言模型。

        训练过程

        冻结所有预训练模型,包括LLaVA-NeXT-Video-7B的visual encoder,LMM,text tokenizer,以及添加进来的spatial encoder(Cut3R),仅训练跨注意力层+MLP,并且采用LLaVA-NeXT-Video同样的训练目标。为保证高效自适应,引入了LoRA来进行微调。

三、数据

        由于以往的基准VSI-Bench依赖于人工标注,且数据量少仅有5000pairs,另外以往的商业大模型如GPT-4,在基础空间任务中,表现较弱,也就是没有这方面知识学习过。所以本文构建了一个20wQA对的3D空间指令数据集,用于训练VLM-3R的空间推理能力。

        数据集来自于ScanNet(室内场景点云,带有物体语义标注),ScanNet++(高精度扫描,提供3D bbox),ARKitScnens(移动设备RGB-D视频,包含相机位姿)在VSI-Bench上的8个核心任务中7个开发了QA的数据(物体计数,相对距离,相对方向,外观顺序,物体尺寸,绝对距离,房间大小)。

        这7个QA数据的基础来自于一个建立好的时空场景图,在场景图中每一帧作为时间节点存在,并且存放着每一个实例在每个时间下的全局和局部状态,以及与相机的关联关系。

        而另外的一个任务路径规划问题,则通过Habitat仿真生成轨迹,最后生成4225条路径规划对,加上之前的7个QA任务共207779对数据,比VSI-Bench扩大了40倍。

四、VSTI-Bench

        包含五类时空任务,共138.6KQA对,包括相机位移,相机移动方向,物体相对相机的距离变化,物体相对相机的方位演变,物体相对位置。

        任务分为帧级任务和序列级任务,帧级任务,单一帧内时空状态的快照所推理出的信息,比如第一帧相机和xx物体间距离,序列级任务,跨多帧之间的聚合推理,比如相机的运动轨迹。

        数据基础,同样依赖于ScanNet,ScanNet++,ARKitScnens生成的时空场景图,并自动化生成推理QA对数据。

        评估指标,数值答案和分类答案,数值答案使用MRA(Mean Relative Accuracy),通过多容错率来平均提升鲁棒性。分类答案则使用标准的准确率计算。

        MRA=\frac{1}{10} \sum_{\theta \in \left \{ 0.5,0.55,...,0.95 \right \}} \mathbf{}{1}(\frac{|\hat y-y|}{y}<1- \theta)

参考论文:[2505.20279] VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction 

MinerU 是一个用于将 PDF 转换为 Markdown 和 JSON 的高质量数据提取工具,其支持多种后端模型进行文档解析,其中 VLM-transformers 和 VLM-sglang 是两种主要的模型架构。它们在技术实现、性能表现和适用场景上存在显著差异。 ### 技术架构差异 VLM-transformers 是基于 HuggingFace Transformers 框架构建的视觉语言模型Vision-Language Model),其核心是将文档图像与文本信息联合建模。该模型通常使用预训练的视觉编码器(如 DETR 或 Swin Transformer)与文本解码器(如 BART 或 T5)进行端到端训练,以实现对文档结构的理解和内容提取 [^2]。 VLM-sglang 则是基于 SGLang 框架构建的模型,SGLang 是一种高效的推理引擎,专为大语言模型设计,支持动态批处理、并行推理等优化技术。VLM-sglang 在架构上可能结合了轻量级视觉编码器与高效的文本生成模块,以实现快速推理和低延迟响应,适合部署在资源受限的环境中 [^1]。 ### 性能比较 在推理速度方面,VLM-sglang 由于采用了 SGLang 的优化机制,通常比 VLM-transformers 更快。SGLang 支持异步推理和批处理优化,可以显著减少请求延迟并提高吞吐量。相比之下,VLM-transformers 在推理过程中可能需要更长的响应时间,尤其是在处理复杂文档结构时 [^1]。 在资源消耗方面,VLM-sglang 通常对 GPU 内存的需求较低,适合在边缘设备或低配服务器上部署。而 VLM-transformers 由于其模型规模较大,通常需要更高性能的计算资源,例如 A100 或 H100 GPU [^2]。 ### 应用场景 VLM-transformers 更适合需要高精度解析的科研和工程文档,如论文解析、技术手册提取等场景。其强大的建模能力能够处理复杂的表格、公式和多语言内容,适用于对解析质量要求较高的任务 。 VLM-sglang 更适用于大规模部署和实时服务场景,例如在线文档转换平台、企业内部的知识管理系统等。其高效的推理能力使其能够在资源受限环境下保持良好的性能,适合需要快速响应和高并发处理的应用 。 ### 部署与扩展性 VLM-transformers 的部署通常依赖于 HuggingFace Transformers 和 PyTorch 生态,支持多种模型格式和推理框架,但部署流程相对复杂。VLM-sglang 基于 SGLang 构建,支持与多种服务框架集成(如 FastAPI、Ray 等),部署流程更简洁,适合构建微服务架构 。 在模型扩展性方面,VLM-transformers 支持更多种类的预训练模型和微调策略,适合研究人员进行定制化开发。而 VLM-sglang 更注重推理效率,扩展性主要体现在服务端的横向扩展能力 。 ```bash # 使用 VLM-sglang 进行 PDF 解析的示例命令 mineru -p paper.pdf -o output \ -b vlm-sglang-client \ -u http://10.0.0.1:30000 \ --formula on --table on ``` ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值