【论文阅读|具身智能】Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning-CSDN博客

本文链接：https://blog.csdn.net/chien__/article/details/144243036

文章链接：https://arxiv.org/abs/2407.01531

Abstract

随着机器人任务复杂性的增加，对多任务和持续学习的高效策略提出了更高要求。传统模型通常依赖于一个适用于所有任务的通用策略，但在学习新任务时面临计算成本高和灾难性遗忘等挑战。为了解决这些问题，我们提出了一种稀疏、可重用且灵活的策略——稀疏扩散策略（Sparse Diffusion Policy, SDP）。通过在基于变换器（transformer）的扩散策略中引入专家混合模型（Mixture of Experts, MoE），SDP能够有选择地激活专家和技能，从而实现高效且任务特定的学习，无需重新训练整个模型。SDP不仅减少了活跃参数的负担，还促进了专家在不同任务之间的无缝集成和重用。通过在模拟和真实世界的多种任务上的广泛实验，结果表明：

1、SDP在多任务场景下表现出色，且活跃参数的增加可忽略不计；
2、在持续学习新任务时能够有效防止遗忘；
3、能够实现高效的任务迁移，提供了一种有前景的解决方案，适用于高级机器人应用。

演示和代码可以在 https://forrest-110.github.io/sparse_diffusion_policy 找到。

关键词: Robot Learning（机器人学习）、Multitask and Continual Learning（多任务与持续学习）、Mixture of Experts (MoE)（专家混合模型）

1 Introduction

通用机器人在学术界和工业界正获得广泛关注，它们能够执行各种任务，并在不断学习新任务的同时，不会丧失之前获得的技能[1, 2, 3, 4, 5, 6]。

传统方法通常依赖于一个通用且单一的策略[1, 2]，针对所有任务激活大网络中的所有参数，甚至对于像推物体这样简单的任务也不例外。此外，考虑到机器人学习任务的多样性和终身学习的需求[7, 8]，当遇到新任务时，这些方法通常需要昂贵的微调[9]，而微调往往会导致之前习得技能的灾难性遗忘。任务特定的适配器，如LoRA[10]，需要在推理过程中扩展活跃参数。另一种方法是为不同的任务训练独立的策略，然而这种方法需要针对每个任务进行独立的从零开始的训练，并且无法跨任务迁移知识。近期关于技能发现[5, 11, 12]和技能链[13, 14]的研究为解决上述挑战提供了希望。这些方法需要精心设计并借助视觉特征[5, 15, 16, 17, 18]和语言提示[14, 19]等知识引导，以学习不同任务的不同技能，目标是能在未见过的场景中复用这些技能。然而，它们的技能抽象模块通常不具备可扩展性，并且网络结构没有设计为稀疏以提高计算效率。因此，网络结构的影响尚未得到充分探讨。
在这里插入图片描述

图 1：稀疏扩散策略（SDP）概览

多任务学习：SDP 可以同时从不同的人类示范数据集中获取专家。由于其稀疏性，SDP 可以为不同的任务激活不同的专家。此外，凭借其可重用性，SDP 可以激活相同的专家以在任务之间共享知识。

持续学习：凭借其灵活性，SDP 只需添加少量新专家即可转向新任务。通过保留旧的专家和路由器，这种方法有效避免了灾难性遗忘。

任务迁移：利用其可重用性，SDP 可以通过调整旧专家和路由器来实现任务迁移，从而基于先前学到的知识获得新技能。

最近，专家混合模型（MoE）[20]已在NLP、计算机视觉和多模态领域的规模化应用中取得了成功[21, 22, 23]。MoE通过路由器有选择地激活一部分专家网络，允许专家在各种任务和时间内得以重用，并且在保留现有功能的同时，能够整合额外的网络。这一观察引出了一个自然的问题：仅仅通过采用稀疏、可重用且灵活的MoE结构，是否能在没有大量人工知识集成的情况下克服这一挑战？
受到上述观察的启发，我们提出了稀疏扩散策略（Sparse Diffusion Policy, SDP），如图1所示，旨在通过将MoE架构集成到基于变换器的扩散策略[24]中，探索多任务和持续学习的潜力。SDP具有几个优点：

稀疏性：每次只激活一组特定的技能，显著提高推理过程中的计算效率。
可重用性：技能在不同任务之间系统地复用，例如“抓取与放置”是机器人任务中经常使用的技能。
灵活性：新的任务技能可以与现有的技能池合并或添加，使其在未来任务中能够灵活使用。
我们将MoE中的专家视为专门的技能，将路由器视为技能规划器（如图1所示）。此外，我们还探讨了MoE在机器人学习中的具体训练和应用策略。

在模拟和真实世界的广泛实验中，我们证明了SDP在机器人任务的多任务、持续学习和任务迁移方面的有效性。与单任务模型相比，SDP在多任务场景下仅增加了1%的活跃参数，表现出卓越的多任务性能。在持续学习方面，SDP在新任务上保持较高的成功率，并且不会遗忘已学习的任务，而基线模型[10]需要激活超过62%的参数。此外，我们还研究了使用一个非常小的预训练模型，将其初步训练在两个半长度任务上，进行复杂的长期任务迁移。通过训练一个非常轻量的路由器（占总参数的不到0.4%），SDP超越了从零开始训练的模型。实验结果表明，SDP能够通过专家组合提取出广泛的技能，而路由器则有效地充当了技能规划器的角色。

2 Related Work

2.1 机器人技术中的多任务和持续学习

在机器人学习领域，针对多任务学习[25, 26, 27, 28, 29, 30, 13, 31, 32, 2, 33, 34, 35, 36, 37]和持续学习[38, 39, 40, 41, 5, 42]的研究已取得显著进展，使得机器人能够高效地获取并保持多种技能。

多任务学习方法，如策略蒸馏[43, 44, 45]和层次化强化学习[46, 47, 48, 49]，通过利用共享的表示并将复杂任务分解为可管理的子任务，使机器人能够同时学习并执行多个任务。然而，这些方法在策略学习过程中无法引入稀疏性，而稀疏性可以提高多任务学习中策略网络的效率。持续学习技术，包括基于正则化的方法如弹性权重整合（EWC）[50]、基于记忆的策略如经验回放，以及架构创新如渐进神经网络（PNNs）[51]，旨在缓解灾难性遗忘，使机器人能够在保留已学技能的同时，逐步学习新技能。此外，还有一些元学习[52, 53, 54]和少样本学习[55, 56, 57, 58]的研究，赋予机器人在最少数据下快速适应新任务的能力。然而，由于其独特的架构，MoE结构自然支持持续学习，而不会遗忘旧任务。这种方法需要较少的额外技术，并且可以与多任务学习无缝集成，创建一个动态任务池。

2.2 MoE在计算机视觉和大规模语言模型中的应用

专家混合模型（MoE）方法在计算机视觉和大规模语言模型中取得了显著进展，为通过利用“专家”作为专业子模型来提升模型性能提供了一个有前景的策略。在计算机视觉中，MoE框架被应用于多任务学习和迁移学习[59, 22, 60, 61, 62]，证明了其在处理多样化和复杂数据集（如分割、图像分类等）中的高效性。此外，许多研究[63, 64, 65]将MoE集成到变换器架构中，展示了在自然语言处理任务中的显著提升。这些进展突显了MoE系统在应对计算效率[66, 67]和模型准确性[68, 69, 70]方面日益增长的需求中具有巨大的潜力。本研究着重于利用MoE的稀疏性，在机器人学习领域进行多任务和持续学习。我们还充分利用MoE模块，探索任务迁移的高效微调方法。

3 Method

我们的方法将专家混合 (Mixture of Experts, MoE) 层集成到基于 Transformer 的扩散策略网络中【24】，并结合专门设计的多任务和持续学习的训练及应用策略，用于机器人学习。由于网络的结构性稀疏性，我们将该方法命名为稀疏扩散策略 (Sparse Diffusion Policy, SDP)。在以下章节中，我们首先概述多任务和持续模仿学习的问题定义。接着，我们讨论专家混合 (MoE) 结构的集成方式，并探讨其稀疏性、灵活性和可重用性如何被具体用于机器人学习。最后，我们展示所开发的训练策略，以进一步释放该方法在机器人学习领域的潜力。

3.1 问题定义

我们考虑一组机器人任务 $C = \{T_j\}_{j=1}^J$ 。对于任务 $j$ ，存在 $N$ 个专家演示 $\{\tau_{j,i}\}_{i=1}^N$ 。每个演示 $\tau_{j,i}$ 是一个状态-动作对的序列。我们将机器人模仿学习表述为一个动作序列预测问题【24, 36】，通过训练模型以最小化在历史状态条件下预测未来动作的误差。

具体而言，对于任务 $j$ ，模仿学习的目标是最小化行为克隆损失 $L_j^{bc}$ ，定义如下：

$\mathcal{L}_{b c}^{j}=\mathbb{E}_{s_{t-o : t+h}, a_{t-o : t+h} \sim\mathcal{T}_{j}} \left[ \sum_{t=0}^{T} \mathcal{L} \left( \pi( a_{t : t+h} | s_{t-o+1 : t}, \mathcal{T}_{j} ; \boldsymbol{\theta} ), a_{t : t+h} \right) \right]. \tag{1}$