CVPR2021|深度感知镜面分割方法(RGBD数据)

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

80204b071ed83da7c779dd7df68dc31e.png

作者丨paopaoslam

来源丨 泡泡机器人SLAM

编辑丨3D视觉工坊

标题:Depth-Aware Mirror Segmentation

作者:YHaiyang Mei ,Bo Dong , Wen Dong,Pieter Peers, Xin Yang, Qiang Zhang,Xiaopeng Wei

机构:Dalian University of Technology

来源:CVPR2021(Oral)

编译:Cristin

审核:  zhh

摘要

734c1b3bda4b3a4c83bef8692d7e8afb.png

大家好,今天为大家带来的文章是 Depth-Aware Mirror Segmentation

我们提出了一种新的镜像分割方法,该方法利用基于ToF的相机的深度估计作为额外线索,以消除具有特殊情况下的错误,其中镜像反射和周围场景之间的RGB颜色对比度或关系是微妙的。一个重要的观察结果是,ToF深度估计值不反应镜面的真实深度,而是返回反射光路径的总长度,从而在镜面边界处产生明显的深度不连续性。为了在镜像分割中利用深度信息,我们首先构建了一个RGB-D镜像分割数据集,然后利用该数据集来训练一个新的深度感知镜像分割框架。我们的镜像分割框架首先基于颜色和深度的不连续性和相关性来定位镜面。接下来,我们的模型通过考虑颜色和深度信息的上下文对比度进一步细化镜像边界。我们广泛验证了我们的深度感知镜像分割方法,并证明我们的模型优于最先进的基于RGB和RGB-D的镜像分割方法。实验结果还表明,深度是镜像分割的有力线索。

4e51e1e0976d7f8024911769a92e56a4.png

63a883c5f219e0837bea4712c0ee5e42.png

主要工作与贡献

6cfd04d3d56fbce4619b17bf6ed97030.png

1、第一种考虑RGB和深度的镜像分割方法;

2.一个新的RGB-D镜像分割数据集,便于在镜像分割中使用深度的研究;

3.一种新颖的深度感知镜像分割网络,利用RGB和深度不连续性以及镜面内外的相关性;

4.一种新的融合RGB和深度相关的动态加权方案。

d3b36ee83ef8a3abf2a1f167f6f9c353.png

算法流程

e66cd03de8a11b706bbb7c2479ae0b54.png

1. 数据集

我们的第一个贡献是引入了一个新的RGB-D镜像分割数据集,名为RGBD mirror,它包含3049个RGB图像和相应的深度贴图。我们不是自己捕获RGB-D图像,而是从四个流行数据集(即Matterport3D[2]、SUN-RGBD[45]、ScanNet[8]和2D3DS[1])的选定示例合成RGBD镜像,以确保广泛的多样性和广泛的覆盖范围;汇总见表1,代表性示例见图2(a)。每个选定图像至少包含一个镜像区域,像素级精确参考镜像遮罩由专业注释器创建。据我们所知,RGBD镜像是第一个RGB-D镜像分割数据集。

2. 方法

我们的方法基于对镜面的两个关键观察。首先,镜面在语义和深度上引入了不连续性。前者可以在RGB域中检测到,并已被先前的镜像分割工作所利用。后者称为深度不连续,是深度传感器获得反射场景深度而非镜面物理深度的结果。其次,镜像也会在镜像区域的内部和外部之间产生关联。除了可在RGB域中有效检测到的语义相关性外,还存在深度相关性,因为反射场景的视深度通常比镜子及其周围环境的真实深度更深。我们设计了我们的定位和描绘网络(PDNet),以利用RGB和深度的不连续性和相关性来有效分割镜像。

51ac88e353e5c3f62de748ac8dd7a69a.png

图1 网络框图(a) 我们的定位和描绘网络(PDNet)及其两个主要构建模块的概述:(b)定位模块(PM)和(c)描绘模块(DM)。

PDNet(如图1(a)所示)通过两个不同的多级特征提取器提供RGB-D图像,以获得RGB和深度特征。深度特征由5个级联的3×3卷积块(8-16-32-64-128通道配置)和最大池提取。我们选择ResNet-50[16]来提取RGB特征。为了计算效率,在将提取的RGB特征与深度特征一起馈送到定位模块(b)或描绘模块(c)之前,将其通过额外的信道缩减卷积。定位模块(PM)使用RGB和深度中的全局和局部特征估计镜子的初始位置。描绘模块(DM)根据局部不连续性和上一级的特征细化镜像边界。最后一次DM的预测被用作最终的镜像分割。

2.1 Positioning Module

给定最高级别的RGB和深度特征,PM根据RGB和深度中的全局和局部不连续性和相关性线索,估计初始镜像位置以及用于指导后续DM模块的相应特征。PM的训练由真实镜面Mask监督。我们的PM模块(图3(b))由两个子分支组成:不连续感知分支(DPB)和相关感知分支(CPB)。

2.2 Delineating Module

给定来自PM或上一级DM的高级镜像检测功能,DM会细化镜像边界(图1(c))。DM的核心是一个描绘块,它利用RGB和深度中的局部不连续性来描绘镜像边界。由于此类优化只应发生在镜像周围的区域,因此我们利用上一个模块(PM或DM)的更高级别功能作为指南,以缩小潜在的优化区域。

2.3 Loss Function

148df4b7471ddee6d35febdbbf7772c4.png

BCE损失是前景-背景分割任务中使用最广泛的损失,它平均且独立地计算每个前景和背景像素的损失。在许多情况下,背景像素的数量超过前景像素的数量,导致偏置损失。为了补偿此类情况,我们还包括map级IoU损失。此外,我们还使用了面片级边缘保留损失来更加关注前景边界。

aff1fec39cd7c8536802bde3c2b69caa.png

实验结果

d5f5a429d6fbf12da5c11b0516368534.png

a97a7ff756ebcb0d0f0b1552f60b7ab9.png

表1 最先进的语义分割方法的定量性能(以◦ 符号),显著目标检测方法(△), RGB-D显著性检测方法(▽), 和RGB镜像分割方法(⋆) 在RGBD镜像训练集中重新训练,并在RGBD镜像测试集中进行比较。需要额外CRF[20]后处理步骤的方法用†符号标记。我们还包括一种基于训练集中镜像掩码位置统计信息的阈值方法。第一、第二和第三个最佳结果分别以红色、绿色和蓝色突出显示。我们的方法在所有四个评估指标中都达到了最佳性能。

15a55948ca22631c2a82c5d5aaa0c49f.png

图2 PDNet与在RGBD镜像数据集上重新训练的最新分割方法的视觉比较。PDNet在具有小镜像(第1-3行)、大镜像(第4-6行)和多个镜像(第7-9行)的场景以及具有相似边界和/或外观(第10-12行)的挑战性场景上的性能优于其他方法。

48dd90efac2a28892f1a051e442dff4d.png

图3 不同PDNet变体的视觉消融比较。

点击阅读原文, 即可获取本文下载链接。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程推荐:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

2fd590860fad84e0a5d3a6966607deaa.png

▲长按加微信群或投稿

3f0526442ba3391eb1c90d57d460b8c4.png

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

7350fc86f0019461b01f38b871315937.png

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值