本文是LLM系列文章,针对《Large Language Models Need Consultants for Reasoning: Becoming an Expert in a Complex Human System Through Behavior Simulation》的翻译。
摘要
大型语言模型(LLM)与各种推理强化方法相结合,在数学、法律、编码、常识和世界知识等领域表现出了与人类相当的非凡能力。在本文中,我们深入研究了LLM在复杂人类系统中的推理能力。我们利用基于生成代理的仿真技术,提出了一种新的推理框架,称为“马赛克专家观察墙”(MEOW)。在MEOW框架中,模拟数据用于训练专家模型,在每个独立的模拟时间内集中关于特定任务的“经验”。正是通过模拟积累的“经验”使专家能够在复杂的人类系统中完成任务。我们在一个反映真实世界安全场景的通信游戏中进行实验。结果表明,我们提出的方法可以与现有的方法相结合,提高LLM在复杂人类系统中的推理能力。