Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

本文是LLM系列文章,针对《Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach》的翻译。

摘要

我们研究了一种新的语言模型架构,该架构能够通过潜在空间中的隐式推理来缩放测试时间计算。我们的模型通过迭代一个循环块来工作,从而在测试时展开到任意深度。这与通过产生更多token来扩展计算的主流推理模型形成鲜明对比。与基于思维链的方法不同,我们的方法不需要任何专门的训练数据,可以在小的上下文窗口中工作,并且可以捕获不易用语言表示的推理类型。我们将概念验证模型扩展到35亿个参数和8000亿个token。我们证明,由此产生的模型可以提高其在推理基准上的性能,有时甚至可以显著提高,计算负载相当于500亿个参数。

1 在连续空间中通过思维进行缩放

2 为什么要训练具有循环深度的模型?

3 可扩展的循环架构

4 训练大规模递归深度语言模型

5 基准结果

6 循环深度简化了LLM

7 在循环深度模型中,按比例出现了哪些机制

### DeepSeek LLM 的长期扩展策略 开源语言模型(LLMs)的发展趋势表明,扩大模型规模可以显著提升性能。然而,随着参数量增加,计算资源消耗也呈指数级增长。为了实现可持续发展并推动技术进步,DeepSeek 采取了一系列基于长期主义的战略来扩展开源语言模型[^1]。 #### 资源效率优化 针对现有硬件条件下的资源利用最大化问题,团队专注于提高训练过程中的计算效率。具体措施包括但不限于: - **稀疏化处理**:通过引入结构化的权重矩阵,在不影响整体表现的前提下减少不必要的连接数量; - **量化方法应用**:采用低精度数值表示法降低内存占用和带宽需求; ```python import torch.nn as nn class SparseLinear(nn.Module): def __init__(self, in_features, out_features, sparsity=0.9): super(SparseLinear, self).__init__() self.linear = nn.Linear(in_features, out_features) mask = (torch.rand_like(self.linear.weight) > sparsity).float() self.register_buffer('mask', mask) def forward(self, x): masked_weight = self.linear.weight * self.mask return F.linear(x, masked_weight, self.linear.bias) ``` #### 社区共建生态体系 除了技术创新外,构建健康的社区环境对于促进高质量贡献至关重要。为此,DeepSeek 积极鼓励全球开发者参与进来,共同维护和发展这一开放平台。主要举措有: - 定期举办黑客松活动和技术分享会; - 提供详尽文档和支持渠道帮助新成员快速上手; - 设立奖励机制表彰优秀个人或团体的工作成果;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值