ICCV 2023|Occ2Net，一种基于3D 占据估计的有效且稳健的带有遮挡区域的图像匹配方法

旷视

于 2023-09-25 15:05:36 发布

阅读量975

点赞数

文章标签： 3d

本文链接：https://blog.csdn.net/Megvii_tech/article/details/133285972

版权

Occ2Net是一种新型的图像匹配方法，利用3D占用估计来处理遮挡区域，提高了图像匹配的准确性和稳健性。该方法在遮挡场景下表现出色，适用于SLAM、图像检索等视觉应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文为大家介绍一篇入选ICCV 2023的论文，《Occ²Net: Robust Image Matching Based on 3D Occupancy Estimation for Occluded Regions》，一种基于3D 占据估计的有效且稳健的带有遮挡区域的图像匹配方法。

论文链接：https://arxiv.org/abs/2308.16160

开源代码：https://github.com/megvii-research/Occ2net/tree/main

总体思路

图像匹配是各种视觉应用中的基础和关键任务，如：同时定位和映射（SLAM），图像检索等，这些任务都需要精确的姿态估计。然而，大多数现存的方法忽视了由相机运动和场景结构引起的对象间的遮挡关系。在本文中，我们提出了一种新颖的图像匹配方法Occ²Net，该方法使用3D占位图模型来描述遮挡关系，并推断出被遮挡区域的匹配点。借助占位估计（OE）模块编码来归纳偏差，它大大简化了构建一个多视图一致的3D表示的过程，同时该表示能够整合多视图信息。再结合遮挡感知（OA）模块，通过引入注意力层和旋转对齐，实现了被遮挡点和可见点的匹配。我们在真实世界和模拟数据集上评估了我们的方法，结果显示其在多项指标上，尤其是在遮挡场景下，优于当前最先进的方法。

任务背景以及解决思路

图像匹配是各种视觉应用中的基础和关键任务，例如SLAM（同时定位与地图创建）和图像检索等。它的目标是在两幅或更多的图像中识别和对应相同或相似的结构/内容。图像匹配可以分为两类：基于特征的方法和密集式方法。基于特征的方法从图像中提取稀疏的关键点和描述符，然后基于相似性指标进行匹配；而密集式方法是估计图像像素或区块之间的密集对应关系。

然而，这两种方法都无法很好地应对遮挡情况，遮挡在真实世界环境中是常见的。上图展示了这些挑战的一个例子。由于相机运动，两个图像的视差很大。尽管存在大量的重叠区域，但大的视差导致了遮挡，大大减少了可见匹配对的数量。此外，在这个例子中，场景中的地面和墙壁纹理都比较低，两个可以辨别的显示器被标记为绿色和红色的遮罩，指示在图像(b)中可见但在图像(a)中被遮挡的区域。这些因素使得现有的算法难以提取出足够的匹配对进行相机姿态估计。类似的情况在室内导航或自动驾驶中也很常见。为了解决这些问题，我们提出了一种新的图像匹配方法，称为Occ²Net。它不仅匹配可见的点对，还可以匹配被遮挡的点和可见的点。

基于这个观察，我们设计了Occ²Net来匹配3D点。参照NeRF，我们将每个像素视为从相应相机发出的一条射线。NeRF通过在射线上等间隔采样来获取3D点，并通过可微分渲染学习它们的信息。然而，在匹配算法中，我们在推理时没有姿态信息，所以我们将射线上的采样简化为两个点：一个可见点和一个被遮挡的点。在训练时，我们使用真实深度和姿态来重新投影并确定一个3D点是被遮挡还是可见。

基于这些简化，Occ²Net将可见点之间的匹配扩展到可见点与遮挡点之间的匹配。为了实现带有3D显著性的匹配，我们使用了一个3D占用估计（OE）模块，这大大简化了多视角3D表示方法。由于3D匹配的难度、占用大量存储空间以及占用估计的误差，我们没有使用整个图像的3D占用来估计匹配，而是采用了粗到精的结构。在粗糙的步骤中，我们使用了遮挡感知（OA）模块来获取每个子块之间的匹配，OE模块则用于获取每个子块中的精细匹配。

我们在两个数据集上评估我们的提出的方法：ScanNet[1]和 TartanAir[2]，这些数据集包含了各种程度遮挡的现实和模拟场景。我们使用了几种衡量标准，将我们的方法与几种最先进的基于特征的方法以及密集方法进行了比较。实验结果显示，我们的方法在这两个数据集上都取得了优越的准确度，超过了现有方法很多。而且，我们的方法在处理遮挡情况下展示出了高的稳健性和效率。

总的来说，我们提出了一种能够识别遮挡点的图像匹配算法，该算法在真实世界和合成数据集上均优于最先进的方法。具体来说，我们的贡献