本文是LLM系列文章,针对《Emergent Symbolic Mechanisms Support Abstract Reasoning in Large Language Models》的翻译。
摘要
最近的许多研究都发现了大语言模型中出现推理能力的证据,但对于这些能力的稳健性,以及它们在多大程度上依赖于结构化推理机制,仍存在争议。为了阐明这些问题,我们对支持开源语言模型 Llama3-70B 中抽象规则归纳的内部机制进行了全面研究。我们识别出一种新兴的符号架构,它通过一系列三个计算步骤来实现抽象推理。在早期层中,符号抽象头基于输入token之间的关系将其转换为抽象变量。在中间层中,符号归纳头对这些抽象变量进行序列归纳。最后,在后期层中,检索头通过检索与预测的抽象变量相关联的值来预测下一个token。这些结果为符号主义和神经网络方法之间长期存在的争论提供了解决思路,表明神经网络中的新兴推理能力依赖于符号机制的出现。
1 引言
大语言模型已成为人工智能领域的主导范式,但关于其能力的局限性和可靠性仍存在大量争议。这场争论的一个主要焦点是它们是否能够以抽象或类似人类的方式进行系统推理。许多研究记录了大语言模型在各种推理任务上令人印象深刻的表现,在某些情况下甚至可以与人类表现相媲美,但其他研究对这些结论提出了质疑。特别是,语言模型在一些推理领域,如数学推理或规划中表现较差