主要内容
本文系统性地综述了大型语言模型(LLMs)高效推理的研究进展,聚焦于解决推理过程中因冗长推理链导致的计算效率问题(即“过度思考”现象)。作者将现有方法分为三类:
- 基于模型的高效推理:通过强化学习(RL)或监督微调(SFT)优化模型生成更简洁的推理链。
- 基于推理输出的高效推理:在推理过程中动态压缩或缩短推理步骤,例如利用潜空间表示或动态推理范式。
- 基于输入提示的高效推理:通过提示设计(如长度约束或难度路由)引导模型生成更高效的推理。
此外,文章还讨论了高效训练数据构建、小模型推理能力、评估基准等方向,并维护了一个开源仓库以持续更新相关研究。
创新点
- 系统性分类框架:首次提出了高效推理方法的结构化分类,涵盖模型、输出和输入三个维度。
- 过度思考现象分析:深入剖析了长推理链导