简介
机器人感知涉及使用摄像头、激光雷达和雷达等传感器来收集环境数据,然后通过算法处理这些数据来解释周围环境。这使机器人能够检测物体并支持状态估计、定位、导航、控制和规划等功能,从而执行复杂的任务。
在我之前的感知实验中,我们发现了现代视觉语言模型 (VLM) 可以通过人类语言提示来检测训练数据集中不存在的物体。从这个小实验中得出的结论是,Grounded SAM 2 (G-SAM2) 非常棒,因为与 YOLO-World 不同,它可以通过提示“装有 LiDAR 的 6 轮机器人”来检测和分割我的 SHL-1 机器人。下一个大问题是,我们可以在真正的机器人上运行这个模型吗?
要使机器人感知管道可用,它必须实时运行。然而,我的 Grounded SAM 2 实验是在Google Colab上进行的,它提供了一个免费的NVIDIA T4 GPU,虽然它远非最好的设备,但仍是一种广泛使用的数据中心级 GPU。然而,G-SAM2 在此 GPU 上的推理时间约为 1.5 秒,这远远不能令人满意。