点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0.这篇文章干了啥?
这篇文章提出了一种名为Hydra的基于RGB-D相机和图像空间分割的新型手眼标定方法。相比传统依赖标记物或复杂初始化的技术,Hydra通过结合深度学习分割模型(如SAM 2)和基于李代数的ICP配准,在不使用标记的情况下,实现了更高效、更准确的手眼标定。实验结果表明,该方法在不同机械臂和相机配置中表现出显著提升,收敛速度比现有方法快百倍,成功率提高三倍,且只需少量机器人姿态即可完成标定。该研究为机器人视觉标定领域提供了一种简洁、实用且开源的解决方案,推动了无标记手眼标定技术的发展。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:Hydra: Marker-Free RGB-D Hand-Eye Calibration
作者:Martin Huber, Huanyu Tian等
作者机构:King’s College London等
论文链接:https://arxiv.org/pdf/2504.20584
2. 摘要
本研究提出了一种基于RGB-D图像的无标记手-眼标定方法,采用了新颖的迭代最近点(ICP)算法实现方式,其鲁棒的点到平面(PTP)目标函数在李代数上进行建模。通过对三个知名串联机械臂和两个RGB-D相机的全面实验验证了该方法的适用性。仅使用三个随机选择的机械臂姿态,我们的方法即可实现约90%的标定成功率,在收敛至全局最优解方面,比现有的有标记和无标记基线方法高出2到3倍的成功率。对于9个机械臂姿态组合,我们的方法在收敛时间上也提升了两个数量级(0.8 ± 0.4秒),显著快于其他无标记方法。在保持无标记的同时,本方法在任务空间的标定精度达到5毫米,明显优于传统方法(7毫米)。本研究开放了基准数据集和代码(Apache 2.0协议),并提供了与ROS 2的集成及机器人抽象接口,以便于部署。

3. 效果展示
网格渲染使用nv绕射[27]。N = 3个机器人配置的校准。所示为验证样本,即不在N个样本中(参见第III-A节)。绿点表示AprilTag中心,红/蓝点表示重新投影的中心。九头蛇(我们的)与最佳经典基线(Shah[21])进行了比较。参考第IV-A节。推荐课程:多传感器标定不得不聊的20种标定方案(Lidar/Radar/Camera/IMU等)。

4. 主要贡献
提出了一种新颖的、采样高效且计算高效的ICP算法,融合了在李代数上构建的鲁棒点到平面(PTP)目标函数,适用于任意串联机械臂;
基于真实硬件进行的全面多系统评估,并开放相应基准数据集;
开源实现,提供与ROS 2的无缝集成,便于部署。
5. 基本原理是啥?
图像空间分割作为抽象手段他们使用一种基于基础模型(foundation model,比如 SAM 2)的图像空间分割方法,将手眼标定问题抽象成对图像中感兴趣区域(比如机械臂末端和相机视野中的目标)的分割和匹配。这种分割方法能适应不同的机械臂和相机,提供统一的标定基础。
基于李代数的ICP配准标定过程在笛卡尔空间(3D空间)进行,通过ICP(Iterative Closest Point)算法,在李代数的数学框架下对点云数据做刚性配准。这种方法用一个线性化的目标函数(通过矩阵求逆来解)实现优化,计算简便且稳健。
无标记物标定该方法完全不依赖任何物理标记物,不需要在环境中放置专门的标记点,也不需要通过标记物进行初始化。这相比传统需要标记物的手眼标定方法,更灵活方便。
快速且高成功率的优化过程采用的优化算法相比之前的EasyHeC方法,收敛速度快上百倍,且成功率提升了三倍,说明算法效率和稳定性显著提高。
依赖RGB-D相机和分割模型该方法利用带深度信息的RGB-D相机,结合图像分割模型(SAM 2),从图像中准确提取目标区域,用于后续的点云配准。
静态配置和有限用户交互当前方法针对静态机械臂和相机配置,需要重新标定以应对机械臂或相机位置的改变;另外,图像分割需要一些有限的用户辅助。


6. 实验结果
标定精度实验中,提出的方法(Hydra)达到了大约3毫米的标定误差,这与EasyHeC++报告的精度相当,表明其标定结果具有较高的准确性。
收敛速度和成功率
收敛速度比EasyHeC快约两百倍(两个数量级)。
标定成功率提升了三倍,显示算法更稳定、鲁棒。
与其他方法的比较
在与Shah和Tsai等经典手眼标定方法的对比中,Hydra表现出显著的改进,准确率更高,具体数据可见文中的表格和图5。
实验配置
采用了三组机械臂配置进行测试,证明只需少量的姿态样本即可达到较高的准确度。
测试覆盖了不同型号的RGB-D相机(RealSense和ZED),且均能实现良好的标定效果。
用户交互与标记依赖
虽然依赖少量用户辅助进行图像分割,但完全不依赖物理标记,减少了实验准备工作量。
实验图表
相关实验数据通过图5、图4以及表I详细展示,支持结论的有效性和优势。
7. 总结 & 未来工作
总而言之,本研究首次证明了:类似 EasyHeC 的基础模型所实现的图像空间分割,可以为实现多种串联机械臂和相机之间的手眼标定提供一种可行的抽象方式。与 EasyHeC 不同,我们在笛卡尔空间中使用了一种新的目标函数,通过李代数上的 ICP 方法进行稳健配准。这种方法比深度回归(DR)更为简单,仅依赖于矩阵求逆(见公式(11))来求解线性化目标函数(见公式(2))。
此外,所提出的方法在收敛速度上比 EasyHeC 快两个数量级,且成功率提升了三倍(见第四章 B 节与图 5)。该方法完全不依赖于任何标记物,实现了真正的无标记化标定,不再需要以标记物作为初始化。
由于 EasyHeC 目前仅适用于 xArm 7 自由度机械臂,并且存在结构性低效问题,因此我们无法对两者在精度方面进行最终比较。不过据 EasyHeC++ 报道,其标定误差约为 3 mm,这与我们所报告的精度一致(见图 5)。此外,我们的方法在性能上远超 Shah和 Tsai见表 I 和图 5)。
Hydra 方法的一个局限性在于其依赖 RGB-D 相机和 SAM 2 分割模型,后者尽管只需要有限的用户交互(见图 2 和第二章 D 节),但仍非完全自动化。目前我们尚未将该优化方法扩展至 eye-in-hand(手持相机)配置,所有实验场景均为静态,若发生位置变化则需重新标定。
尽管存在局限,但 Hydra 在无标记手眼标定领域仍是一项重要突破。未来的研究可聚焦于动态场景的标定,进一步降低残差误差,以追赶甚至超越 PnP 方法的精度。Hydra 和其基准数据集的开源特性,将为该领域的持续进步提供良好基础。同时,成熟的 Python 封装及与 ROS 2 的集成,也使其能方便地部署在多种机器人系统上。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉硬件
3D视觉学习圈子
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
3D视觉全栈学习课程:www.3dcver.com
3D视觉交流群成立啦
添加微信:cv3d001,备注:方向+单位,邀请入群 点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~