本文是LLM系列文章,针对《Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach》的翻译。
利用潜在推理扩展测试时间计算:一种循环深度方法
摘要
我们研究了一种新的语言模型架构,该架构能够通过潜在空间中的隐式推理来缩放测试时间计算。我们的模型通过迭代一个循环块来工作,从而在测试时展开到任意深度。这与通过产生更多token来扩展计算的主流推理模型形成鲜明对比。与基于思维链的方法不同,我们的方法不需要任何专门的训练数据,可以在小的上下文窗口中工作,并且可以捕获不易用语言表示的推理类型。我们将概念验证模型扩展到35亿个参数和8000亿个token。我们证明,由此产生的模型可以提高其在推理基准上的性能,有时甚至可以显著提高,计算负载相当于500亿个参数。