CVPR‘25 | 无需深度信息！RefPose引领3D物体姿态估计新时代！-CSDN博客

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) ！星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章提出了一种名为RefPose的两阶段6D物体姿态估计方法。首先通过模板选择和基于中位数投票的粗略姿态估计，构建初始姿态；然后利用相关体积引导的注意力机制辅助几何形状估计，结合迭代渲染对比实现精细化姿态优化。该方法仅依赖RGB图像和3D模型，无需深度信息，兼具高精度和良好的泛化能力。在多个主流公开数据集上的大量实验验证了其优越的性能和效率，消融实验也证实了各模块设计的有效性，推动了复杂真实场景下6D姿态估计技术的发展。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：RefPose: Leveraging Reference Geometric Correspondences for Accurate 6D Pose Estimation of Unseen Objects

作者：Jaeguk Kim,Jaewoo Park等

作者机构：Department of ECE, INMC, Seoul National University, Korea等

论文链接：https://arxiv.org/pdf/2505.10841

2. 摘要

从单目RGB图像中估计未知物体的6D位姿仍然是一个具有挑战性的问题，尤其是由于缺乏先验的物体特定知识。为了解决这一问题，我们提出了RefPose，一种创新的物体位姿估计方法，利用参考图像和几何对应关系作为引导。RefPose首先通过使用物体模板渲染参考图像，并建立几何对应关系，从而预测初始位姿，为后续的精细化阶段提供基础。在精细化阶段，RefPose基于生成的参考信息估计查询图像的几何对应关系，并通过“渲染-比较”的迭代方式不断优化位姿。为了提升估计效果，我们引入了一种基于相关体积引导的注意力机制，有效捕捉查询图像与参考图像之间的关联。不同于依赖预定义物体模型的传统方法，RefPose通过利用参考图像和几何对应关系，实现了对新物体形状的动态适应，从而在之前未见过的物体上表现出强大的鲁棒性。在BOP基准数据集上的大量评测表明，RefPose不仅取得了最新的领先成绩，同时保持了具有竞争力的运行时间。

3. 效果展示

姿态估计结果的定性比较。我们将我们的方法与其他方法进行了定性比较，其中绿色为真实值姿态的投影轮廓，蓝色为预测姿态的投影轮廓。

4. 主要贡献

提出RefPose方法，利用参考图像和几何对应关系引导查询几何对应关系及位姿估计，消除了对预定义物体集形状先验的依赖。
提出基于光流的分类器以改进模板选择，并引入基于变形的几何估计方法，结合中位数投票增强对异常值的鲁棒性，实现更准确的粗略位姿估计。推荐课程：机械臂6D位姿估计抓取从入门到精通。
提出基于相关体积引导的注意力机制，提升模型聚焦于查询图像对应参考图像相关区域的能力。
在BOP基准数据集上实现了最先进的性能，同时保持竞争性的运行时间。

5. 基本原理是啥？

粗略姿态估计（Coarse Pose Estimation）利用预先渲染的多个模板（即不同角度和姿态的物体图像）从中选择几个最匹配的模板，然后通过基于中位数的投票机制（medoid-based voting）来估计物体的初始姿态。这一步主要是快速得到一个大致正确的物体位姿。
几何估计辅助（Geometry Estimation with Correlation-Guided Attention）在得到初始粗略姿态后，利用相关体积引导的注意力机制对查询图像的几何信息进行估计。这里通过引入“相关体积”（correlation volume）引导模型聚焦于查询图像和模板之间的相关区域，从而提高几何估计的准确性。
迭代渲染与比较（Iterative Render-and-Compare）结合上述估计的几何信息，采用渲染和实际图像对比的方式，迭代地细化姿态，逐步提升姿态估计的精度，直到得到最终准确的6D物体姿态。

6. 实验结果

整体性能表现RefPose 在 BOP（Benchmark for 6D Object Pose Estimation）基准测试的七个主流数据集上表现出色，包括 YCB-V、LM-O、T-LESS、TUDL、ICBIN、ITODD 和 HB。

在粗略姿态估计和细化后阶段，RefPose 都达到了最佳或接近最佳的性能。
尽管在 LM-O、T-LESS 和 ITODD 上稍微落后于部分当前最先进的方法，但在其他数据集（尤其是 YCB-V 和 HB）上取得了显著的性能提升。
总体来说，RefPose 展现了在所有数据集上的最优综合表现。

与其他方法的对比
- 除了 OSOP 使用自己的检测模型外，所有方法均采用 CNOS 作为检测/分割模型，保证了对比的公平性。
- RefPose 的粗略姿态估计即使和 MegaPose 细化阶段结合，也优于 MegaPose 自身的粗略估计。
- 细化方法在应用于 MegaPose 粗估计时，也表现得比 MegaPose 自身的细化更有效。
计算效率
- 虽然 RefPose 在粗略估计阶段耗时稍长，但由于减少了渲染次数并使用了轻量模型，细化阶段的运行时间显著缩短。
- 整体推理速度与其他最先进方法相当，但在准确性上有明显优势。
消融实验
- 预渲染模板数量、选用模板数量、粗略姿态估计各个模块和细化阶段关键组件均经过系统消融验证，证明了各部分设计对性能提升的有效性和必要性。
定性结果
- 通过图像对比展示了 RefPose 在不同场景下的鲁棒性和准确性，表明其在复杂环境中的适用性。
7. 总结 & 未来工作

本文提出了 RefPose，一种旨在提升未知物体姿态估计精度和泛化能力的两阶段方法。首先通过模板选择和基于中位数投票的粗略姿态估计，构建初始姿态；随后利用相关体积引导的注意力机制辅助几何估计。该几何估计结果用于支持迭代的渲染-比较过程，从而得到精确的最终姿态。大量在 BOP 基准上的实验验证了 RefPose 的优异性能和良好泛化能力，消融研究也证实了各组件的有效性。RefPose 推动了适用于复杂真实场景的 6D 姿态估计的高效且可适应的解决方案的发展。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉硬件

3D视觉学习圈子

「3D视觉从入门到精通」知识星球(点开有惊喜) ！星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

3D视觉全栈学习课程：www.3dcver.com

3D视觉交流群成立啦
添加微信：cv3d001,备注：方向+单位，邀请入群 点这里👇关注我，记得标星哦～
一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~