点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0.这篇文章干了啥?
这篇文章提出了一种名为RefPose的两阶段6D物体姿态估计方法。首先通过模板选择和基于中位数投票的粗略姿态估计,构建初始姿态;然后利用相关体积引导的注意力机制辅助几何形状估计,结合迭代渲染对比实现精细化姿态优化。该方法仅依赖RGB图像和3D模型,无需深度信息,兼具高精度和良好的泛化能力。在多个主流公开数据集上的大量实验验证了其优越的性能和效率,消融实验也证实了各模块设计的有效性,推动了复杂真实场景下6D姿态估计技术的发展。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:RefPose: Leveraging Reference Geometric Correspondences for Accurate 6D Pose Estimation of Unseen Objects
作者:Jaeguk Kim,Jaewoo Park等
作者机构:Department of ECE, INMC, Seoul National University, Korea等
论文链接:https://arxiv.org/pdf/2505.10841
2. 摘要
从单目RGB图像中估计未知物体的6D位姿仍然是一个具有挑战性的问题,尤其是由于缺乏先验的物体特定知识。为了解决这一问题,我们提出了RefPose,一种创新的物体位姿估计方法,利用参考图像和几何对应关系作为引导。RefPose首先通过使用物体模板渲染参考图像,并建立几何对应关系,从而预测初始位姿,为后续的精细化阶段提供基础。在精细化阶段,RefPose基于生成的参考信息估计查询图像的几何对应关系,并通过“渲染-比较”的迭代方式不断优化位姿。为了提升估计效果,我们引入了一种基于相关体积引导的注意力机制,有效捕捉查询图像与参考图像之间的关联。不同于依赖预定义物体模型的传统方法,RefPose通过利用参考图像和几何对应关系,实现了对新物体形状的动态适应,从而在之前未见过的物体上表现出强大的鲁棒性。在BOP基准数据集上的大量评测表明,RefPose不仅取得了最新的领先成绩,同时保持了具有竞争力的运行时间。
3. 效果展示
姿态估计结果的定性比较。我们将我们的方法与其他方法进行了定性比较,其中绿色为真实值姿态的投影轮廓,蓝色为预测姿态的投影轮廓。

4. 主要贡献
提出RefPose方法,利用参考图像和几何对应关系引导查询几何对应关系及位姿估计,消除了对预定义物体集形状先验的依赖。
提出基于光流的分类器以改进模板选择,并引入基于变形的几何估计方法,结合中位数投票增强对异常值的鲁棒性,实现更准确的粗略位姿估计。推荐课程:机械臂6D位姿估计抓取从入门到精通。
提出基于相关体积引导的注意力机制,提升模型聚焦于查询图像对应参考图像相关区域的能力。
在BOP基准数据集上实现了最先进的性能,同时保持竞争性的运行时间。
5. 基本原理是啥?
粗略姿态估计(Coarse Pose Estimation)利用预先渲染的多个模板(即不同角度和姿态的物体图像)从中选择几个最匹配的模板,然后通过基于中位数的投票机制(medoid-based voting)来估计物体的初始姿态。这一步主要是快速得到一个大致正确的物体位姿。
几何估计辅助(Geometry Estimation with Correlation-Guided Attention)在得到初始粗略姿态后,利用相关体积引导的注意力机制对查询图像的几何信息进行估计。这里通过引入“相关体积”(correlation volume)引导模型聚焦于查询图像和模板之间的相关区域,从而提高几何估计的准确性。
迭代渲染与比较(Iterative Render-and-Compare)结合上述估计的几何信息,采用渲染和实际图像对比的方式,迭代地细化姿态,逐步提升姿态估计的精度,直到得到最终准确的6D物体姿态。





6. 实验结果
整体性能表现RefPose 在 BOP(Benchmark for 6D Object Pose Estimation)基准测试的七个主流数据集上表现出色,包括 YCB-V、LM-O、T-LESS、TUDL、ICBIN、ITODD 和 HB。
在粗略姿态估计和细化后阶段,RefPose 都达到了最佳或接近最佳的性能。
尽管在 LM-O、T-LESS 和 ITODD 上稍微落后于部分当前最先进的方法,但在其他数据集(尤其是 YCB-V 和 HB)上取得了显著的性能提升。
总体来说,RefPose 展现了在所有数据集上的最优综合表现。
与其他方法的对比
除了 OSOP 使用自己的检测模型外,所有方法均采用 CNOS 作为检测/分割模型,保证了对比的公平性。
RefPose 的粗略姿态估计即使和 MegaPose 细化阶段结合,也优于 MegaPose 自身的粗略估计。
细化方法在应用于 MegaPose 粗估计时,也表现得比 MegaPose 自身的细化更有效。
计算效率
虽然 RefPose 在粗略估计阶段耗时稍长,但由于减少了渲染次数并使用了轻量模型,细化阶段的运行时间显著缩短。
整体推理速度与其他最先进方法相当,但在准确性上有明显优势。
消融实验
预渲染模板数量、选用模板数量、粗略姿态估计各个模块和细化阶段关键组件均经过系统消融验证,证明了各部分设计对性能提升的有效性和必要性。
定性结果
通过图像对比展示了 RefPose 在不同场景下的鲁棒性和准确性,表明其在复杂环境中的适用性。
7. 总结 & 未来工作
本文提出了 RefPose,一种旨在提升未知物体姿态估计精度和泛化能力的两阶段方法。首先通过模板选择和基于中位数投票的粗略姿态估计,构建初始姿态;随后利用相关体积引导的注意力机制辅助几何估计。该几何估计结果用于支持迭代的渲染-比较过程,从而得到精确的最终姿态。大量在 BOP 基准上的实验验证了 RefPose 的优异性能和良好泛化能力,消融研究也证实了各组件的有效性。RefPose 推动了适用于复杂真实场景的 6D 姿态估计的高效且可适应的解决方案的发展。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉硬件
3D视觉学习圈子
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
3D视觉全栈学习课程:www.3dcver.com
3D视觉交流群成立啦
添加微信:cv3d001,备注:方向+单位,邀请入群 点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~