本文是LLM系列文章,针对《KNOWLEDGEABLE AGENTS BY OFFLINE REINFORCEMENT
LEARNING FROM LARGE LANGUAGE MODEL ROLLOUTS》的翻译。
摘要
强化学习(RL)训练智能体通过环境交互数据完成复杂任务,但其能力也受到可用数据范围的限制。
为了获得知识渊博的代理,一种有前景的方法是利用大型语言模型(LLM)的知识。尽管之前的研究将LLM与RL相结合,但由于语义差距,这两个组件的无缝集成仍然具有挑战性。本文介绍了一种新方法,即语言模型展开中的知识代理(KALM),该方法以虚拟展开的形式从LLM中提取知识,代理可以通过离线强化学习方法轻松学习。KALM的主要挑战在于LLM的基础,因为LLM本质上仅限于文本数据,而环境数据通常包含LLM看不到的数值向量。为了解决这个问题,KALM对LLM进行了微调,使其能够根据环境数据执行各种任务,包括技能的自然语言描述与其相应的推出数据之间的双向翻译。这个基础过程增强了LLM对环境动态的理解,使其能够产生反映新技能的多样化和有意义的想象性推出。对CLEVR机器人环境的初步实证评估表明,KALM使代理能够完成任务目标的复杂改写,并将其能力扩展到需要前所未有的最佳行为的新任务。KALM在执行具有未知目标的任务方面取得了46%的成功率ÿ