【论文阅读|具身智能】Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning

文章链接:https://arxiv.org/abs/2407.01531

Abstract

随着机器人任务复杂性的增加,对多任务和持续学习的高效策略提出了更高要求。传统模型通常依赖于一个适用于所有任务的通用策略,但在学习新任务时面临计算成本高和灾难性遗忘等挑战。为了解决这些问题,我们提出了一种稀疏、可重用且灵活的策略——稀疏扩散策略(Sparse Diffusion Policy, SDP)。通过在基于变换器(transformer)的扩散策略中引入专家混合模型(Mixture of Experts, MoE),SDP能够有选择地激活专家和技能,从而实现高效且任务特定的学习,无需重新训练整个模型。SDP不仅减少了活跃参数的负担,还促进了专家在不同任务之间的无缝集成和重用。通过在模拟和真实世界的多种任务上的广泛实验,结果表明:

  • 1、SDP在多任务场景下表现出色,且活跃参数的增加可忽略不计;
  • 2、在持续学习新任务时能够有效防止遗忘;
  • 3、能够实现高效的任务迁移,提供了一种有前景的解决方案,适用于高级机器人应用。

演示和代码可以在 https://forrest-110.github.io/sparse_diffusion_policy 找到。

关键词: Robot Learning(机器人学习)、Multitask and Continual Learning(多任务与持续学习)、Mixture of Experts (MoE)(专家混合模型)

1 Introduction

通用机器人在学术界和工业界正获得广泛关注,它们能够执行各种任务,并在不断学习新任务的同时,不会丧失之前获得的技能[1, 2, 3, 4, 5, 6]。

传统方法通常依赖于一个通用且单一的策略[1, 2],针对所有任务激活大网络中的所有参数,甚至对于像推物体这样简单的任务也不例外。此外,考虑到机器人学习任务的多样性和终身学习的需求[7, 8],当遇到新任务时,这些方法通常需要昂贵的微调[9],而微调往往会导致之前习得技能的灾难性遗忘。任务特定的适配器,如LoRA[10],需要在推理过程中扩展活跃参数。另一种方法是为不同的任务训练独立的策略,然而这种方法需要针对每个任务进行独立的从零开始的训练,并且无法跨任务迁移知识。近期关于技能发现[5, 11, 12]和技能链[13, 14]的研究为解决上述挑战提供了希望。这些方法需要精心设计并借助视觉特征[5, 15, 16, 17, 18]和语言提示[14, 19]等知识引导,以学习不同任务的不同技能,目标是能在未见过的场景中复用这些技能。然而,它们的技能抽象模块通常不具备可扩展性,并且网络结构没有设计为稀疏以提高计算效率。因此,网络结构的影响尚未得到充分探讨。
在这里插入图片描述

图 1:稀疏扩散策略(SDP)概览

  1. 多任务学习:SDP 可以同时从不同的人类示范数据集中获取专家。由于其稀疏性,SDP 可以为不同的任务激活不同的专家。此外,凭借其可重用性,SDP 可以激活相同的专家以在任务之间共享知识。
  2. 持续学习:凭借其灵活性,SDP 只需添加少量新专家即可转向新任务。通过保留旧的专家和路由器,这种方法有效避免了灾难性遗忘。
  3. 任务迁移:利用其可重用性,SDP 可以通过调整旧专家和路由器来实现任务迁移,从而基于先前学到的知识获得新技能。

最近,专家混合模型(MoE)[20]已在NLP、计算机视觉和多模态领域的规模化应用中取得了成功[21, 22, 23]。MoE通过路由器有选择地激活一部分专家网络,允许专家在各种任务和时间内得以重用,并且在保留现有功能的同时,能够整合额外的网络。这一观察引出了一个自然的问题:仅仅通过采用稀疏、可重用且灵活的MoE结构,是否能在没有大量人工知识集成的情况下克服这一挑战?
受到上述观察的启发,我们提出了稀疏扩散策略(Sparse Diffusion Policy, SDP),如图1所示,旨在通过将MoE架构集成到基于变换器的扩散策略[24]中,探索多任务和持续学习的潜力。SDP具有几个优点:

  1. 稀疏性:每次只激活一组特定的技能,显著提高推理过程中的计算效率。
  2. 可重用性:技能在不同任务之间系统地复用,例如“抓取与放置”是机器人任务中经常使用的技能。
  3. 灵活性:新的任务技能可以与现有的技能池合并或添加,使其在未来任务中能够灵活使用。
    我们将MoE中的专家视为专门的技能,将路由器视为技能规划器(如图1所示)。此外,我们还探讨了MoE在机器人学习中的具体训练和应用策略。

在模拟和真实世界的广泛实验中,我们证明了SDP在机器人任务的多任务、持续学习和任务迁移方面的有效性。与单任务模型相比,SDP在多任务场景下仅增加了1%的活跃参数,表现出卓越的多任务性能。在持续学习方面,SDP在新任务上保持较高的成功率,并且不会遗忘已学习的任务,而基线模型[10]需要激活超过62%的参数。此外,我们还研究了使用一个非常小的预训练模型,将其初步训练在两个半长度任务上,进行复杂的长期任务迁移。通过训练一个非常轻量的路由器(占总参数的不到0.4%),SDP超越了从零开始训练的模型。实验结果表明,SDP能够通过专家组合提取出广泛的技能,而路由器则有效地充当了技能规划器的角色。

2 Related Work

2.1 机器人技术中的多任务和持续学习

在机器人学习领域,针对多任务学习[25, 26, 27, 28, 29, 30, 13, 31, 32, 2, 33, 34, 35, 36, 37]和持续学习[38, 39, 40, 41, 5, 42]的研究已取得显著进展,使得机器人能够高效地获取并保持多种技能。

多任务学习方法,如策略蒸馏[43, 44, 45]和层次化强化学习[46, 47, 48, 49],通过利用共享的表示并将复杂任务分解为可管理的子任务,使机器人能够同时学习并执行多个任务。然而,这些方法在策略学习过程中无法引入稀疏性,而稀疏性可以提高多任务学习中策略网络的效率。持续学习技术,包括基于正则化的方法如弹性权重整合(EWC)[50]、基于记忆的策略如经验回放,以及架构创新如渐进神经网络(PNNs)[51],旨在缓解灾难性遗忘,使机器人能够在保留已学技能的同时,逐步学习新技能。此外,还有一些元学习[52, 53, 54]和少样本学习[55, 56, 57, 58]的研究,赋予机器人在最少数据下快速适应新任务的能力。然而,由于其独特的架构,MoE结构自然支持持续学习,而不会遗忘旧任务。这种方法需要较少的额外技术,并且可以与多任务学习无缝集成,创建一个动态任务池。

2.2 MoE在计算机视觉和大规模语言模型中的应用

专家混合模型(MoE)方法在计算机视觉和大规模语言模型中取得了显著进展,为通过利用“专家”作为专业子模型来提升模型性能提供了一个有前景的策略。在计算机视觉中,MoE框架被应用于多任务学习和迁移学习[59, 22, 60, 61, 62],证明了其在处理多样化和复杂数据集(如分割、图像分类等)中的高效性。此外,许多研究[63, 64, 65]将MoE集成到变换器架构中,展示了在自然语言处理任务中的显著提升。这些进展突显了MoE系统在应对计算效率[66, 67]和模型准确性[68, 69, 70]方面日益增长的需求中具有巨大的潜力。本研究着重于利用MoE的稀疏性,在机器人学习领域进行多任务和持续学习。我们还充分利用MoE模块,探索任务迁移的高效微调方法。

3 Method

我们的方法将专家混合 (Mixture of Experts, MoE) 层集成到基于 Transformer 的扩散策略网络中【24】,并结合专门设计的多任务和持续学习的训练及应用策略,用于机器人学习。由于网络的结构性稀疏性,我们将该方法命名为稀疏扩散策略 (Sparse Diffusion Policy, SDP)。在以下章节中,我们首先概述多任务和持续模仿学习的问题定义。接着,我们讨论专家混合 (MoE) 结构的集成方式,并探讨其稀疏性、灵活性和可重用性如何被具体用于机器人学习。最后,我们展示所开发的训练策略,以进一步释放该方法在机器人学习领域的潜力。

3.1 问题定义

我们考虑一组机器人任务 C = { T j } j = 1 J C = \{T_j\}_{j=1}^J C={ Tj}j=1J。对于任务 j j j,存在 N N N 个专家演示 { τ j , i } i = 1 N \{\tau_{j,i}\}_{i=1}^N { τj,i}i=1N。每个演示 τ j , i \tau_{j,i} τj,i 是一个状态-动作对的序列。我们将机器人模仿学习表述为一个动作序列预测问题【24, 36】,通过训练模型以最小化在历史状态条件下预测未来动作的误差。

具体而言,对于任务 j j j,模仿学习的目标是最小化行为克隆损失 L j b c L_j^{bc} Ljbc,定义如下:

L b c j = E s t − o : t + h , a t − o : t + h ∼ T j [ ∑ t = 0 T L ( π ( a t : t + h ∣ s t − o + 1 : t , T j ; θ ) , a t : t + h ) ] . (1) \mathcal{L}_{b c}^{j}=\mathbb{E}_{s_{t-o : t+h}, a_{t-o : t+h} \sim\mathcal{T}_{j}} \left[ \sum_{t=0}^{T} \mathcal{L} \left( \pi( a_{t : t+h} | s_{t-o+1 : t}, \mathcal{T}_{j} ; \boldsymbol{\theta} ), a_{t : t+h} \right) \right]. \tag{1} Lbcj=Esto:t+h,ato:t+hTj

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值