点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 背景
即时定位与重建技术(SLAM)技术是自主机器人系统的感知基础。语义SLAM技术可以针对未知环境,进行高精度语义理解,对于众多复杂的视觉、机器人任务显得尤为重要。
1. 效果展示
来自 Monash & MBZUAI 的研究成果 ICRA 2025 “Hier-SLAM: Scaling-up Semantics in SLAM with a Hierarchically Categorical Gaussian Splatting” 正式发布并开源!
代码地址:https://github.com/LeeBY68/Hier-SLAM

2. 论文信息
标题:Hier-SLAM: Scaling-up Semantics in SLAM with a Hierarchically Categorical Gaussian Splatting
作者:Boying Li, Zhixi Cai, Yuan-Fang Li, Ian Reid, and Hamid Rezatofighi
机构:Monash & MBZUAI
原文链接:https://arxiv.org/abs/2409.12518
代码链接:https://github.com/LeeBY68/Hier-SLAM
3. 摘要
本文提出了 Hier-SLAM,这是一种基于语义的三维高斯溅射 SLAM 方法,具备全新的层级类别表示方式,能够实现精准的全局三维语义建图、良好的扩展性,以及三维世界中显式的语义标签预测。随着环境复杂度的增加,语义 SLAM 系统的参数量急剧上升,使得场景理解变得尤为困难且成本高昂。
为了解决这一问题,本文引入了一种紧凑的层级语义表示,将语义信息有效嵌入到 3D Gaussian Splatting 中,并借助大语言模型(LLM)的能力构建结构化语义编码。此外,本文设计了一种新的语义损失函数,通过层内(inter-level)和跨层(cross-level)联合优化,进一步提升层级语义信息的学习效果。本文还对整个 SLAM 系统进行了全面优化,显著提升了追踪建图性能及运行速度。
Hier-SLAM 在建图和定位精度方面均超越现有的稠密 SLAM 方法,并在运行速度上实现了 2 倍加速。同时,在语义渲染性能上也达到了与现有方法相当的水平,同时在存储开销与训练时间方面大幅下降。令人印象深刻的是,该系统的渲染速度可达每秒 2000 帧(含语义)或 3000 帧(无语义)。尤其重要的是,Hier-SLAM 首次展现了在超过 500 类语义场景中仍能高效运行的能力,充分体现了其强大的扩展性。
4. 算法解析
近年来,三维高斯溅射(3D Gaussian Splatting)作为一种新兴的三维世界表示方法,由于其快速渲染与优化能力,受到广泛关注。3DGS 使用高斯分布有效建模了几何参数的连续分布,这不仅提升了性能,也带来了更高效的优化能力,尤其适用于 SLAM 任务中联合优化相机位姿与全局地图的复杂问题。在保留 3DGS 概率建模优势的同时,将语义理解赋予 3DGS ,并将其应用于语义SLAM中,可以全面理解场景,并提升其在视觉导航、路径规划和自动驾驶等下游任务中的应用潜力。但是,直接将语义类别概率分布加入3DGS会导致巨大的存储开销,在复杂场景中几乎不可用。
因此,本文提出Hier-SLAM —— 一种基于层级类别表示的语义三维高斯溅射 SLAM 系统。现实世界中的语义信息本身天然具备层次结构(eg:桌子 -> 家具 -> 目标 -> 场景),这种层级关系可被有效表示为语义树结构,从而用较少的节点编码全部的语义信息,形成一种紧凑编码结构。例如,一棵深度为 10 的二叉树最多可表示 个类别,仅需 20 个符号编码(每层使用 2 维 Softmax)。
为构建任意类别的语义树结构,本工作同时考虑语义信息的功能属性与几何属性,借助大语言模型(LLMs)自动构建结构合理的语义树,有效压缩信息表示,减少内存开销与训练时间,同时保持语义结构的物理意义。
为进行层级化语义信息理解,本工作设计了层内(inter-level)与跨层(cross-level)联合优化的语义损失函数,实现了从粗到细的场景理解方式,特别适用于从远处到近处观察视角不断变化的场景。同时,我们对原有 Gaussian SLAM 系统进行了一系列优化,实现了整体性能与运行速度的大幅度提升。
本工作亮点:
🌳 LLM辅助的层级语义编码将复杂语义压缩为紧凑树结构,语义存储开销降低至 Log(N) 级别。
⚡️ 追踪与建图速度提升 2 倍,超越强大的 GS-SLAM 基线;支持语义渲染时达 2000 FPS,无语义时高达 3000 FPS。
🔍 可扩展语义理解:支持从简单房间到复杂空间的粗到细逐层语义感知,展现出应对复杂环境的可扩展性。
5. 实验分析
本文验证了Hier-SLAM在仿真数据集Replica和真实世界数据集ScanNet上的测试效果。 结果显示,本方法在建图与追踪精度上超越现有稠密 SLAM 方法,同时整体SLAM运行速度提升 2 倍。在渲染方面,渲染效果超过现有稠密 SLAM 方法,同时渲染速度可达 2,000 FPS,不含语义信息时可达 3,000 FPS。由于大语言模型助力,本工作支持在复杂真实场景中处理超过 500 类语义标签,充分展现出语义理解的可扩展性。
6. 总结
今天笔者为大家介绍了一种三维高斯溅射语义 SLAM 方法 Hier-SLAM,它是一个大语言模型LLM助力、运行高效、层级化语义建图 的三维高斯溅射 SLAM 系统。该方法引入了全新的层级类别表示方式,实现了高精度的全局三维语义建图、出色的可扩展性,以及在三维空间中显式语义预测能力。
本文仅做学术分享,如有侵权,请联系删文。


3D视觉硬件

3D视觉学习圈子
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

3D视觉全栈学习课程:www.3dcver.com

3D视觉交流群成立啦

一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~