具身智能论文（二）

晓shuo

已于 2024-05-13 10:15:11 修改

阅读量2.2k

点赞数 23

分类专栏：具身智能文章标签：人工智能具身智能机器人

于 2024-05-13 09:20:14 首次发布

本文链接：https://blog.csdn.net/python_plus/article/details/138770450

版权

具身智能专栏收录该内容

9 篇文章

订阅专栏

1. Code as Policies: Language Model Programs for Embodied Control
2. Embodied Agents for Efficient Exploration and Smart Scene Description
3. Embodied Agents for Efficient Exploration and Smart Scene Description
4. Learning to explore informative trajectories and samples for embodied perception
5. Sonicverse: A Multisensory Simulation Platform for Embodied Household Agents that See and Hear
6. The threedworld transport challenge: A visually guided task-and-motion planning benchmark towards physically realistic embodied ai
参考文献

1. Code as Policies: Language Model Programs for Embodied Control

在这里插入图片描述

这篇论文针对如何将大型语言模型（LLMs）应用于机器人的策略代码生成中，提出了一种创新的方法，以提高机器人执行复杂任务的能力。通过解析自然语言命令并生成相应的控制代码，该方法允许机器人在没有额外模型微调的情况下，理解并执行这些命令。

研究团队发现，编写代码的语言模型能够处理接收到的自然语言命令，并自主重组API调用来生成新的策略代码。这些策略代码可以表达函数或反馈循环，处理感知输出，并参数化控制原语API。例如，基于给定的自然语言指令，模型可以生成导航机器人移动的代码，如“向后移动直到看到橘子”或“向右移动直到看到苹果”。

实验部分，研究者展示了该方法在多个真实机器人平台上的应用效果，包括桌面操控和移动操控任务。这些任务展示了模型在解析对象关系、形成多步骤行为等方面的能力。此外，论文还在两个代码生成基准测试RoboCodeGen和HumanEval上评估了该方法，结果显示，这种基于策略的代码生成方法在解决问题的准确率上有显著提高，表明了其在机器人编程领域的应用潜力。

此外，这种方法还具有编写逻辑结构（如序列、选择和循环）以在运行时组装新行为的能力，可以使用第三方库（如NumPy和Shapely）进行空间几何推理等。这种层次化的代码生成方法不仅提高了机器人对新指令的适应能力，还通过使用模块化的代码库逐步积累，自我构建动态代码库，增强了策略代码的复杂性和灵活性。

通过这项研究，作者不仅在技术层面上推进了机器人语言编程和控制策略的发展，还为机器人系统实现更高级的自主性和智能互动提供了新的可能性，展示了大型语言模型在机器人控制领域的广泛应用前景。

2. Embodied Agents for Efficient Exploration and Smart Scene Description

在这里插入图片描述
这篇论文探索了如何利用智能体在未知室内环境中进行有效的探索并实时生成描述性的自然语言解说。这项工作的核心在于提升机器人平台在人口密集环境中的应用，通过智能的场景描述来增强人类对机器人感知环境的理解。

研究团队提出了一种整合的解决方案，包括视觉探索策略、图像描述生成和智能描述策略。这三个组件相互协作，使得智能体不仅能探索和绘制环境地图，还能够生成关于观察到的场景的自然语言描述。此外，研究还开发了一个新的评估指标“情节描述得分”(ED-S)，该指标能够综合考量探索和描述能力，包括避免重复的情况下如何覆盖环境中的物体。

在技术实现上，探索能力依赖于导航模块的性能，采用了层次化的导航策略，结合学习的神经占据映射器和位姿估计器。字幕生成器采用编码器-解码器架构的变换器，利用多头自注意力机制来处理图像和文本信息，生成与观察到的场景相关的自然语言描述。发言策略负责决定在何种视觉输入条件下激活字幕生成器，从而智能化地控制信息输出。

实验结果显示，这种方法在Gibson和Matterport3D数据集上进行测试，与其他基线模型相比，能有效地从机器人视角描述探索过程，并提高人类对机器人观察结果的可解释性。该方法不仅提高了智能体描述其感知环境的能力，还增强了与人类用户的互动质量。

最后，论文展示了该架构设计适用于真实的机器人平台，并通过实际机器人平台的部署来验证其实用性和有效性。这表明所提出的方法和技术在未来机器人的实际应用中，特别是在服务机器人和辅助设备领域中具有广泛的应用前景。这项工作不仅推动了机器人自主探索和自然语言处理技术的融合，还为智能机器人在复杂环境中的实用部署提供了重要的技术支持。

3. Embodied Agents for Efficient Exploration and Smart Scene Description

在这里插入图片描述

这篇论文介绍了一个新的智能体任务——远程具身操纵问答（Remote Embodied Manipulation Question Answering, REMQA），旨在探索智能体在理解自然语言指令的基础上进行物理操纵的能力。

为了有效地实现这一目标，研究团队设计了一个结合了3D语义重建和模块化网络的框架，用以解决在互动环境中，智能体如何根据给定的引用表达（Referring Expression）来精确定位并操作目标物体，以回答相关问题。这一框架主要包括语言注意力网络（Language Attention Network）和3D语义记忆导航，这些组件共同工作，以确保智能体可以准确理解和响应自然语言指令。

此外，为了测试所提出框架的有效性，研究者们在AI2-THOR模拟器中创建了一个专门的基准数据集REMQA，该数据集包括不同房间中的室内物体排列和关于环境中物体的引用表达式问题。通过在该数据集上进行一系列的实验，结果表明，所提出的框架在导航到指定位置、识别并操纵目标物体以及根据物体操纵后的布局推断问题答案等方面都表现出色。

这项研究的重要性在于它不仅推动了具身AI任务的研究边界，还展示了智能体在理解复杂的自然语言指令和执行精确的物理操作方面的潜力。通过这种互动的方式，智能体能够更加深入地理解和响应人类用户的需求，这对于未来在更复杂或人口密集的环境中部署服务机器人等应用具有重要意义。

4. Learning to explore informative trajectories and samples for embodied perception

在这里插入图片描述
这篇论文探索如何有效地利用预训练的感知模型在未知环境中进行自我改善。文章指出，当前预训练的感知模型通常基于互联网大规模图像数据集训练，而将这些模型适应于实际环境中的具体任务仍面临诸多挑战，尤其是在动态和复杂的环境中，如何有效收集训练样本成为关键问题。

为此，研究者们提出了一种基于3D语义分布图的智能体探索策略。这种策略通过实时更新的3D语义分布图，来引导智能体识别和探索那些语义预测不一致或不确定的区域。具体方法包括：首先，使用指数移动平均方法融合来自不同视角的观察结果，生成3D语义分布图；然后，定义了两种基于该语义图的奖励机制（语义分布不一致奖励和语义分布不确定性奖励）来训练智能体的探索策略。

在实验方面，研究者在Matterport3D数据集上进行测试，并将方法部署在实体机器人中，以评估其在真实环境中的表现。结果表明，该探索策略不仅提高了预训练模型在新环境中的适应能力，还显著提升了对象检测和实例分割的性能。此外，通过对探索得到的轨迹进行硬样本选择，进一步增强了训练数据的质量，使得模型能更好地泛化到新环境。

总结来说，这篇论文通过创新的3D语义分布图和基于奖励的探索策略，有效地解决了预训练感知模型适应新环境的问题。这项研究不仅在理论上推动了具身感知和机器人自主学习的发展，也为实际应用中的机器人提供了强有力的技术支持，特别是在提高机器人在复杂环境中的自主性和适应性方面展示了显著的优势。

5. Sonicverse: A Multisensory Simulation Platform for Embodied Household Agents that See and Hear

在这里插入图片描述

这篇论文介绍了Sonicverse平台，这是一个为家庭机器人设计的多感官模拟平台，能够同时处理视觉和听觉信息。当前的多数仿真环境只能提供视觉模拟，而Sonicverse通过集成的音视频模拟来模拟真实世界中的感官体验，使得机器人能够在更复杂的家庭环境中进行有效的导航和任务执行。

研究团队设计了Sonicverse来克服现有模拟器的限制，特别是在音频处理方面。平台采用实时连续空间音频渲染技术，通过使用场景的完整几何形状和材料属性来实现高保真的空间音频渲染。这种方法不仅增加了音频的真实感，还允许机器人更准确地定位声源和导航。

此外，论文提出了一种多任务学习框架，用于同时进行语义音视频导航和占用地图的预测。这种方法使机器人能够在听到声音的同时观察环境，从而更有效地进行导航和任务执行。实验结果表明，这种方法在提升任务性能方面优于现有技术，并能有效地在模拟环境与真实世界之间进行迁移。

具体地，研究团队在论文中展示了如何将Sonicverse平台用于家庭机器人的培训，并通过在真实环境中部署经过训练的音视频导航代理，成功地验证了从模拟到现实的迁移性。这一成就不仅展示了Sonicverse在音视频感知模拟方面的先进性，也为未来家庭机器人的开发和部署提供了新的研究方向和技术路线。通过这项工作，Sonicverse预期将促进多感官机器人学习研究的发展，并为机器人技术在实际应用中的广泛使用奠定基础。

6. The threedworld transport challenge: A visually guided task-and-motion planning benchmark towards physically realistic embodied ai

在这里插入图片描述

这篇论文介绍了一个新的具身AI挑战——ThreeDWorld运输挑战，该挑战旨在通过一种视觉引导的任务和运动规划来测试和提升智能体在物理真实环境中的操作能力。

这一挑战使用了ThreeDWorld（TDW）仿真平台，该平台支持近照片级的图像渲染和基于物理的声音渲染，以及物体与智能体之间的真实物理交互。在挑战中，一个具有双臂机械手的智能体需要在一个复杂的家庭环境中自主导航，寻找并搬运散落在不同房间的物体到指定位置。智能体可以使用环境中的容器来增加一次性搬运的物体数量，这一过程需要智能体进行复杂的视觉和物理推理以及层次化规划。

实验结果显示，尽管使用了高级的物理驱动的导航和交互API，当前的状态艺术模型仍然难以有效完成任务。纯强化学习模型在这一复杂任务中表现挣扎，而采用层次规划的智能体虽然在搬运一些物体方面取得了进展，但离完全解决这一挑战还有很大的差距。研究者认为，表现良好的模型将对实现更智能的机器人在真实物理世界中的应用是一个有意义的进步。

这项研究的重要性在于它不仅推动了在复杂物理环境中进行任务和运动规划的研究，也为开发能够在现实世界中有效操作的机器人提供了一个新的测试和评估平台。通过这种高度互动和物理真实的测试环境，研究人员可以更好地模拟和解决机器人在日常环境中遇到的各种挑战。

参考文献

[1] Liang J, Huang W, **a F, et al. Code as policies: Language model programs for embodied control[C]//2023 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2023: 9493-9500.

[2] Bigazzi R, Cornia M, Cascianelli S, et al. Embodied agents for efficient exploration and smart scene description[C]//2023 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2023: 6057-6064.

[3] Sima Q, Tan S, Liu H, et al. Embodied referring expression for manipulation question answering in interactive environment[C]//2023 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2023: 7635-7641.

[4] **g Y, Kong T. Learning to explore informative trajectories and samples for embodied perception[C]//2023 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2023: 6050-6056.

[5] Gao R, Li H, Dharan G, et al. Sonicverse: A Multisensory Simulation Platform for Embodied Household Agents that See and Hear[C]//2023 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2023: 704-711.

[6] Gan C, Zhou S, Schwartz J, et al. The threedworld transport challenge: A visually guided task-and-motion planning benchmark towards physically realistic embodied ai[C]//2022 International conference on robotics and automation (ICRA). IEEE, 2022: 8847-8854.