- 博客(3)
- 收藏
- 关注
原创 Code as Policies: LanguageModel Programs for Embodied Control
在代码完成上训练的大型语言模型(LLM)已被证明能够从文档字符串合成简单的Python程序[1]。我们发现,这些代码编写LLM可以被重新用于编写机器人策略代码,给定自然语言命令。具体来说,策略代码可以表达函数或反馈循环,处理感知输出(例如,来自对象检测器[2]、[3]),并参数化控制原语API。当提供几个示例语言命令(格式化为注释)以及相应的策略代码(通过少射提示)作为输入时,LLM可以接受新命令,并自主重组API调用以生成新策略代码。通过链式经典逻辑结构和引用第三方库(例如NumPy、Shapely)
2023-08-03 13:15:39
855
原创 翻译:视觉语言动作模型,将在线知识转化到机器人控制RT-2: Vision-Language-Action ModelsTransfer Web Knowledge2Robotic Control
在广泛的网页规模数据集上预训练的高容量模型为各种下游任务提供了有效而强大的平台:大型语言模型不仅能使文本生成流畅(Anil等人,2023;Brohan等人,2022;OpenAI,2023),而且能解决新出现的问题(Cobbe等人,2021;Lewkowycz等人,2022;Polu等人,2022)并创造性地生成散文(Brown等人,2020;OpenAI,2023)和代码(Chen等人,2021),而视觉-语言模型则能实现开放词汇的视觉识别(Kirillov等人,2023;Minderer等人,2022。
2023-07-30 23:04:11
1739
1
翻译 大语言模型LLMs驱动机器人 李飞飞 VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models
在这项工作中,我们的目标是合成机器人轨迹,即一个密集的6自由度末端执行器航点序列,用于处理给定开放集合的指令和开放集合的对象的各种操作任务。我们首先观察到LLMs擅长根据自由形式的语言指令推断出可供性和约束。更重要的是,通过利用他们的代码编写能力,他们可以与视觉语言模型(VLM)交互,组合3D价值地图 *3D Value Map*,将知识固定在代理的观察空间中。然后,将组合的价值地图用于基于模型的规划框架中,以zero-shot方式合成对动态干扰具有鲁棒性的闭环机器人轨迹。
2023-07-12 18:50:45
4569
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人