CVPR‘25 | 无需深度信息!RefPose引领3D物体姿态估计新时代!

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

图片

0.这篇文章干了啥?

这篇文章提出了一种名为RefPose的两阶段6D物体姿态估计方法。首先通过模板选择和基于中位数投票的粗略姿态估计,构建初始姿态;然后利用相关体积引导的注意力机制辅助几何形状估计,结合迭代渲染对比实现精细化姿态优化。该方法仅依赖RGB图像和3D模型,无需深度信息,兼具高精度和良好的泛化能力。在多个主流公开数据集上的大量实验验证了其优越的性能和效率,消融实验也证实了各模块设计的有效性,推动了复杂真实场景下6D姿态估计技术的发展。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目:RefPose: Leveraging Reference Geometric Correspondences for Accurate 6D Pose Estimation of Unseen Objects

作者:Jaeguk Kim,Jaewoo Park等

作者机构:Department of ECE, INMC, Seoul National University, Korea等

论文链接:https://arxiv.org/pdf/2505.10841

2. 摘要

从单目RGB图像中估计未知物体的6D位姿仍然是一个具有挑战性的问题,尤其是由于缺乏先验的物体特定知识。为了解决这一问题,我们提出了RefPose,一种创新的物体位姿估计方法,利用参考图像和几何对应关系作为引导。RefPose首先通过使用物体模板渲染参考图像,并建立几何对应关系,从而预测初始位姿,为后续的精细化阶段提供基础。在精细化阶段,RefPose基于生成的参考信息估计查询图像的几何对应关系,并通过“渲染-比较”的迭代方式不断优化位姿。为了提升估计效果,我们引入了一种基于相关体积引导的注意力机制,有效捕捉查询图像与参考图像之间的关联。不同于依赖预定义物体模型的传统方法,RefPose通过利用参考图像和几何对应关系,实现了对新物体形状的动态适应,从而在之前未见过的物体上表现出强大的鲁棒性。在BOP基准数据集上的大量评测表明,RefPose不仅取得了最新的领先成绩,同时保持了具有竞争力的运行时间。

3. 效果展示

姿态估计结果的定性比较。我们将我们的方法与其他方法进行了定性比较,其中绿色为真实值姿态的投影轮廓,蓝色为预测姿态的投影轮廓。

4. 主要贡献

  • 提出RefPose方法,利用参考图像和几何对应关系引导查询几何对应关系及位姿估计,消除了对预定义物体集形状先验的依赖。

  • 提出基于光流的分类器以改进模板选择,并引入基于变形的几何估计方法,结合中位数投票增强对异常值的鲁棒性,实现更准确的粗略位姿估计。推荐课程:机械臂6D位姿估计抓取从入门到精通

  • 提出基于相关体积引导的注意力机制,提升模型聚焦于查询图像对应参考图像相关区域的能力。

  • 在BOP基准数据集上实现了最先进的性能,同时保持竞争性的运行时间。

5. 基本原理是啥?

  1. 粗略姿态估计(Coarse Pose Estimation)利用预先渲染的多个模板(即不同角度和姿态的物体图像)从中选择几个最匹配的模板,然后通过基于中位数的投票机制(medoid-based voting)来估计物体的初始姿态。这一步主要是快速得到一个大致正确的物体位姿。

  2. 几何估计辅助(Geometry Estimation with Correlation-Guided Attention)在得到初始粗略姿态后,利用相关体积引导的注意力机制对查询图像的几何信息进行估计。这里通过引入“相关体积”(correlation volume)引导模型聚焦于查询图像和模板之间的相关区域,从而提高几何估计的准确性。

  3. 迭代渲染与比较(Iterative Render-and-Compare)结合上述估计的几何信息,采用渲染和实际图像对比的方式,迭代地细化姿态,逐步提升姿态估计的精度,直到得到最终准确的6D物体姿态。

6. 实验结果

  1. 整体性能表现RefPose 在 BOP(Benchmark for 6D Object Pose Estimation)基准测试的七个主流数据集上表现出色,包括 YCB-V、LM-O、T-LESS、TUDL、ICBIN、ITODD 和 HB。

  • 在粗略姿态估计和细化后阶段,RefPose 都达到了最佳或接近最佳的性能。

  • 尽管在 LM-O、T-LESS 和 ITODD 上稍微落后于部分当前最先进的方法,但在其他数据集(尤其是 YCB-V 和 HB)上取得了显著的性能提升。

  • 总体来说,RefPose 展现了在所有数据集上的最优综合表现。

  • 与其他方法的对比

    • 除了 OSOP 使用自己的检测模型外,所有方法均采用 CNOS 作为检测/分割模型,保证了对比的公平性。

    • RefPose 的粗略姿态估计即使和 MegaPose 细化阶段结合,也优于 MegaPose 自身的粗略估计。

    • 细化方法在应用于 MegaPose 粗估计时,也表现得比 MegaPose 自身的细化更有效。

  • 计算效率

    • 虽然 RefPose 在粗略估计阶段耗时稍长,但由于减少了渲染次数并使用了轻量模型,细化阶段的运行时间显著缩短。

    • 整体推理速度与其他最先进方法相当,但在准确性上有明显优势。

  • 消融实验

    • 预渲染模板数量、选用模板数量、粗略姿态估计各个模块和细化阶段关键组件均经过系统消融验证,证明了各部分设计对性能提升的有效性和必要性。

  • 定性结果

    • 通过图像对比展示了 RefPose 在不同场景下的鲁棒性和准确性,表明其在复杂环境中的适用性。

    7. 总结 & 未来工作

    本文提出了 RefPose,一种旨在提升未知物体姿态估计精度和泛化能力的两阶段方法。首先通过模板选择和基于中位数投票的粗略姿态估计,构建初始姿态;随后利用相关体积引导的注意力机制辅助几何估计。该几何估计结果用于支持迭代的渲染-比较过程,从而得到精确的最终姿态。大量在 BOP 基准上的实验验证了 RefPose 的优异性能和良好泛化能力,消融研究也证实了各组件的有效性。RefPose 推动了适用于复杂真实场景的 6D 姿态估计的高效且可适应的解决方案的发展。

    本文仅做学术分享,如有侵权,请联系删文。

    图片

    3D视觉硬件

    图片

    3D视觉学习圈子

    「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

    图片

    3D视觉全栈学习课程:www.3dcver.com

    image

    3D视觉交流群成立啦

    图片 添加微信:cv3d001,备注:方向+单位,邀请入群 点这里👇关注我,记得标星哦~

    一键三连「分享」、「点赞」和「在看」

    3D视觉科技前沿进展日日相见 ~ 

    图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值