点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群
扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 这篇文章干了啥?
密集的同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)是三维计算机视觉领域的一个基础研究课题,旨在在未知环境中定位相机的六自由度(6DoF)姿态并重建密集地图。它是虚拟现实/增强现实(VR/AR)、机器人定位/导航和视觉感知不可或缺的一部分。例如,在VR/AR中,SLAM系统可以为移动设备和头戴设备提供姿态信息,帮助用户与虚拟内容进行交互,而密集重建的几何结果能更好地模拟物理空间碰撞,从而创造更加沉浸和引人入胜的体验。传统的RGB-D SLAM系统通常执行帧到模型的优化,基于RGB-D相机在像素级别的深度或颜色观测来跟踪相机。得益于深度传感器,传统方法使用迭代最近点(ICP)和截断符号距离函数(TSDF)来更新由几何基元(如体素、成本体量和曲面元素)表示的全局地图。随着深度学习的发展,最近的研究工作转向探索数据驱动的先验知识并利用神经网络的平滑特性。尽管传统和基于学习的密集SLAM系统都展现出了良好的定位和重建性能,但它们无法进行新视角渲染和生成水密表面。对于VR/AR应用而言,逼真的图像渲染和新视角合成也起着重要作用。作为研究领域之一,基于神经辐射场(Neural Radiance Field,NeRF)的SLAM方法在新视角渲染、高保真地图重建和空洞填充方面表现出了显著优势。与传统SLAM方法不同,神经隐式SLAM采用神经辐射场来表示场景属性,并利用多层感知机(MLP)来解码场景的属性(颜色、密度、有符号距离函数、语义信息等)。得益于体渲染和位置编码,隐式表示能够实现高保真图像渲染和新视角合成。iMAP是首个神经隐式密集SLAM系统,它直接使用单个MLP来建模几何和外观信息。然而,由于MLP在持续学习中的遗忘问题,它很难重建大型室内场景。
为了克服这一挑战,许多工作提出使用额外的参数化编码,如密集特征网格/平面/点、哈希表等,以增强MLP的表示能力。然而,额外的密集特征会导致更多的内存使用,这并不高效。此外,语义信息在SLAM中也扮演着重要角色,它使机器人能够感知和理解世界。尽管存在将神经隐式表示与语义建模相结合的工作,但很少有人关注在神经隐式密集SLAM中建模语义信息。这是因为使用神经隐式表示同时执行相机跟踪和语义学习,且输入语义信息在二维上不一致,这极具挑战性。
vMAP和Haghighi等人的工作是与本文最相关的工作,它们使用隐式表示来建模3D实例/语义信息。vMAP利用常用数据集的真实姿态和实例掩码来重建场景中的物体。Haghighi则使用ORB-SLAM3为映射过程提供姿态,但他们忽略了二维分割的不一致性问题。将传统SLAM方法作为独立的前端,使它们转变为一种映射方法而非SLAM方法。此外,它们没有处理相机姿态估计和二维分割的多视角不一致性问题。如上所述,目前尚没有基于隐式的方法能够同时从带有噪声的二维输入中执行相机跟踪、密集表面重建和三维一致的场景语义理解。
为此,本文提出了一种高效的神经隐式语义RGB-D SLAM系统NIS-SLAM,该系统能够同时从二维卷积神经网络(CNN)的不一致分割结果中进行场景重建和学习三维一致的语义。具体而言,为了实现高保真度的表面重建和空间一致的场景理解,我们采用高频多分辨率四面体特征和低频位置编码的混合表示作为系统的输入。此外,为了学习三维一致的语义场,我们引入了一种有效的多视角语义融合策略来处理二维分割结果的不一致性。最后,还采用了语义引导的像素采样和渐进优化权重来进行鲁棒的相机跟踪。
下面一起来阅读一下这项工作~
1. 论文信息
标题:NIS-SLAM: Neural Implicit Semantic RGB-D SLAM for 3D Consistent Scene Understanding
作者:Hongjia Zhai, Gan Huang, Qirui Hu, Guanglin Li, Hujun Bao, Guofeng Zhang
机构:State Key Lab of CAD & CG, Zhejiang University
原文链接:https://arxiv.org/abs/2407.20853
代码链接:https://github.com/zju3dv
官方主页:https://zju3dv.github.io/nis_slam/
2. 摘要
近年来,神经隐式表示范式在同时定位与地图构建(SLAM)领域受到了广泛关注。然而,在场景理解方面,现有方法存在明显不足。本文介绍了NIS-SLAM,一种高效的神经隐式语义RGB-D SLAM系统,该系统利用预训练的二维分割网络来学习一致的语义表示。具体而言,为了实现高保真度的表面重建和空间一致的场景理解,我们将高频多分辨率四面体特征和低频位置编码相结合,作为隐式场景表示。此外,为了解决来自多个视图的二维分割结果不一致的问题,我们提出了一种融合策略,该策略将之前非关键帧的语义概率整合到关键帧中,以实现一致的语义学习。此外,我们实现了基于置信度的像素采样和渐进优化权重函数,以实现稳健的相机跟踪。在多个数据集上的广泛实验结果表明,与其他现有的神经密集隐式RGB-D SLAM方法相比,我们的系统具有更好或更具竞争力的性能。最后,我们还展示了我们的方法可用于增强现实应用。项目页面:https://zju3dv.github.io/nis_slam。
3. 效果展示


4. 主要贡献
综上所述,我们的贡献包括:
• 我们提出了一种高效的神经隐式语义RGB-D SLAM系统,该系统采用混合隐式表示。我们的系统能够同时重建环境,并根据二维分割结果建模三维一致的语义信息。
• 我们提出了一种有效的多视角语义融合方法,能够学习三维一致的语义信息。此外,我们还采用了语义指导采样和渐进优化权重来进行鲁棒的相机跟踪。
• 我们在常用数据集上进行了大量实验,以展示我们的系统在相机跟踪、重建和语义分割方面的最新性能和可比性能。
5. 基本原理是啥?
我们方法的流程如图2所示。给定一个RGB-D图像序列的输入{Ii ∈ R³, Di ∈ R},我们首先通过预训练的CNN模型(Mask2Former)生成2D语义分割结果{Si}和置信度{Con_fi}。基于这些输入,我们的系统能够恢复相机姿态,隐式SDF(有符号距离函数)场,并额外重建一个3D一致的语义表示。以下各小节将详细解释这些组成部分。我们首先介绍基于四面体的神经隐式表示以及如何通过基于SDF的体积渲染来渲染颜色/深度/语义信息。然后,提出了多视角语义融合策略来处理噪声语义信息。


6. 实验结果
我们在表1中展示了在Replica数据集上的相机跟踪性能。如结果所示,我们在大多数场景下都取得了最佳的跟踪性能,除了Office 2场景。总体而言,我们的方法在平均结果上优于所比较的基线方法。此外,为了验证在现实场景中的性能,我们在ScanNet和TUM-RGBD数据集上进行了实验。结果分别如表2和表3所示。对于TUM-RGBD数据集,仅fr3/xyz序列实现了第三的性能。在其他序列上,我们的方法取得了最佳结果,包括平均数据。对于ScanNet数据集,我们的相机跟踪性能略逊于Vox-Fusion。Vox-Fusion能够取得良好结果的原因是它对每个帧都进行了密集的束调整(Bundle Adjustment, BA)。然而,Vox-Fusion的运行速度非常慢(每帧约3秒)。现实场景通常涉及复杂的环境,包括深度噪声、运动模糊和非朗伯体材料,这使得神经辐射场难以建模。与基于点或体素的方法相比,由于缺乏显式表示,我们在重建高频颜色信息方面的性能会稍差一些。





7. 总结 & 未来工作
在本文中,我们提出了NIS-SLAM,这是一种神经隐式密集语义RGB-D SLAM系统,能够从预训练的二维卷积神经网络(CNN)生成的不一致分割结果中建模一致的语义信息。为了实现高保真度的表面重建和空间一致的场景理解,我们的系统采用了一种高频多分辨率四面体特征和低频位置编码的混合表示方法。此外,还提出了多视角语义融合来处理二维分割结果的不一致性。同时,采用语义引导像素采样和渐进优化权重来实现鲁棒的相机跟踪。在多种数据集上进行的大量实验表明了我们所提出系统的有效性和应用潜力。
目前,所提出的NIS-SLAM方法依赖于封闭集模型的分割结果,这限制了其在开放集世界任务中的应用。与大型语言/开放集模型相结合可能对许多应用来说更为实用。与具有显式表示(点、三维高斯)的方法相比,我们的方法在恢复高频信息方面表现不佳。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
接下来,咱们一起聊一聊这个沉淀了6年的3D视觉技术圈子。
一 什么是知识星球?
知识星球是一个高度活跃的社区平台,在这里你可以和相同研究方向的小伙伴一起探讨科研工作难题、交流最新领域进展、分享3D视觉最新顶会论文&代码资料、分享视频(讲解3D视觉重要知识点)、发布高质量的求职就业信息,承接项目等,当然还可以侃侃而谈,吐槽学习工作生活。
二 「3D视觉从入门到精通」知识星球
目前已有近5800多名活跃成员,主要涉及这五大方向:工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、大模型方向。
细分方向众多,包括:相机标定、结构光、3DGS等三维重建、三维点云、缺陷检测、机械臂抓取、激光/视觉/多模态SLAM、自动驾驶、深度估计、模型部署、Transformer、3D目标检测、深度学习、视觉竞赛、硬件选型、视觉产品落地经验分享、学术&求职交流等。我们也会紧跟前沿科技发展,对于Mamba、具身智能、大模型等,在我们星球里也是热门讨论话题。
「3D视觉从入门到精通」知识星球特点 | ||
---|---|---|
国内成立最早 | 近20门独家视频 | 3D视觉精华问答 |
最新顶会论文与代码分享 | 顶会作者直播 | 专业智囊团队答疑解惑 |
最新前沿技术研讨会,比如3DGS | 高质量项目对接 | 各个模块的源码梳理 |
最新行业招聘信息 | 求职面经 | 科研生活吐槽 |
行业最新模组分享 | 随时提问交流 | 每月积分榜奖励 |
三 星球内独家秘制课程

基础课程
3.1 高精度相机标定从理论到实战系统教程

3.2 ROS2从入门到实战视频教程
ROS2从入门到实战视频教程,从小白方式介绍到高阶使用讲解,对ROS2进行全面的实操教学训练,为大家提供系统性的学习机会。


3.3 四旋翼飞行器:算法与实战

工业3D视觉系列视频课程
3.4 基于面结构光三维重建系列视频
主讲老师团队包括:吴周杰博士、邓博、书涵、张琼仪、杨洋博士、郭文博博士等。


3.5 机械臂抓取、三维点云、三维重建等

3.6 3DGS三维重建直播研讨会


SLAM系列视频
3.7 如何轻松拿捏LIO-SAM?(提供注释版本代码)
3.8 彻底剖析激光-视觉-IMU-GPS融合SLAM算法:理论推导、代码讲解和实战系列视频
多模态融合 SLAM 的门槛较高,在需要视觉 SLAM 与激光 SLAM 的基础之外,还会遇到不同模态测量的融合,不同传感器的时间同步,多传感器的外参标定,多传感器异常检测等问题,使得各位同学做这块的时候遇到诸多障碍。因此我们联合机器人学国家重点实验室的博士大佬推出这门课程,从理论和代码实现两个方面对激光雷达-视觉IMU-GPS 融合的 SLAM 算法框架和技术难点进行讲解,并且博士大佬会根据自己多年的机器人工程经验,向大家讲解在实际机器人应用中多模态融合的方法和技巧。

3.9 ORB-SLAM3理论基础+关键技术详解

3.8 视觉-惯性SLAM:VINS-Fusion原理精讲
视觉-惯性SLAM所涉及的理论深度较深、覆盖面广,并对工程实践能力要求也较高,新手自学时相对比较困难。当下虽然有很多丰富的理论资料和优秀的相关开源项目,但是许多童鞋面对海量的理论资料、复杂的开源项目时可能无从下手,前期学习曲线过于陡峭,不得不放弃继续深入。为此,我们推出了《视觉-惯性SLAM的入门与实践》课程,结合VINS-Fusion 源码,系统地对视觉-惯性 SLAM 的基础理论知识进行梳理。整套课程由一线算法工程师教授,从基础理论到代码剖析,保姆级教学,助力学员一步步从小白成长为大牛。

自动驾驶
3.9 单目深度估计方法:理论与实战视频
视频教程主要分为两大部分:理论篇和实战篇,由于有监督方法的深度真值获取困难,且无监督方法的效果与有监督方法几乎相当,我们将课程的重心放在了无监督方法上。
其中,理论篇主要包括:深度估计相关的损失函数、评价指标等基础理论,传统深度估计方法、无监督深度估计方法等理论知识。实战部分包括:传统深度估计方法和深度学习方法,偏向于无监督深度估计以及相关应用等等。

3.10 自动驾驶中的深度学习模型部署实战视频
本视频教程将采用理论和实践相结合的思路,首先对TensorRT的编程模型以及GPU/cuda的相关知识进行讲解,带领大家达到知其所以然的程度;之后课程将用分类、检测、分割三个例子来展示详细编程流程,并给出相关代码,达到真正能落地的工业级分享。

3.11 面向自动驾驶领域的3D点云深度学习目标检测系列视频
本视频教程以3D点云深度学习为主,对Point-based和Voxel-based系列的3D目标检测网络架构进行系统剖析和代码梳理,助力各位同学在点云深度学习更快的入门和更深的理解。

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
3D视觉源码汇总

高质量项目发布与对接

最前沿顶会论文直播讲解



包罗了3D视觉行业模组
<<< 左右滑动见更多 >>>
最前沿论文速递
<<< 左右滑动见更多 >>>
专业的智囊团为星球成员答疑解惑
<<< 左右滑动见更多 >>>
海量的行业招聘信息&面经
<,
,
>
精华问题500问
BEV&Occ

无人机

相位偏折术

三维重建

线结构光

面结构光

机器人路径规划

Tranformer
