机器人感知：使用 Grounded SAM 2 对 YOLO 进行微调(教程含源码)

最新推荐文章于 2025-04-09 09:40:30 发布

知识大胖

最新推荐文章于 2025-04-09 09:40:30 发布

阅读量222

点赞数

分类专栏： NVIDIA GPU和大语言模型开发教程文章标签：机器人 YOLO

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iCloudEnd/article/details/144862958

版权

NVIDIA GPU和大语言模型开发教程专栏收录该内容

该专栏为热销专栏榜第73名

1585 篇文章 ¥89.90 ¥99.00

订阅专栏

简介

机器人感知涉及使用摄像头、激光雷达和雷达等传感器来收集环境数据，然后通过算法处理这些数据来解释周围环境。这使机器人能够检测物体并支持状态估计、定位、导航、控制和规划等功能，从而执行复杂的任务。

在我之前的感知实验中，我们发现了现代视觉语言模型 (VLM) 可以通过人类语言提示来检测训练数据集中不存在的物体。从这个小实验中得出的结论是，Grounded SAM 2 (G-SAM2) 非常棒，因为与 YOLO-World 不同，它可以通过提示“装有 LiDAR 的 6 轮机器人”来检测和分割我的 SHL-1 机器人。下一个大问题是，我们可以在真正的机器人上运行这个模型吗？

要使机器人感知管道可用，它必须实时运行。然而，我的 Grounded SAM 2 实验是在Google Colab上进行的，它提供了一个免费的NVIDIA T4 GPU，虽然它远非最好的设备，但仍是一种广泛使用的数据中心级 GPU。然而，G-SAM2 在此 GPU 上的推理时间约为 1.5 秒，这远远不能令人满意。

推荐文章

《使用 LLM 从头构建知识图谱使用 LLM 将 Pandas 数据框转换为知识图谱。从头开始构建您自己的 LLM 图形生成器，通过 LangChain 实

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

知识大胖 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。