从未知中进化:测试时强化学习如何重塑语言模型的智慧

在人工智能的浩瀚星空中,大型语言模型(LLMs)如同一颗颗璀璨的恒星,凭借其强大的推理能力照亮了科学的边界。然而,当面对未知的挑战——那些没有明确答案标签的复杂问题时,即使是最先进的模型也可能黯然失色。想象一下,一位探险家在没有地图的荒野中跋涉,传统的强化学习(RL)依赖于人类标注的“地图”来指引方向,但当这些地图缺失时,模型该如何前行?答案或许隐藏在一种全新的方法中:测试时强化学习(TTRL),它让模型在未知的测试数据上自我进化,宛如探险家通过观察星空和地貌,绘制出属于自己的导航图。

本文将深入浅出地探讨TTRL的原理、实验成果及其潜在影响。我们将通过生动的比喻、详实的数据和引人入胜的叙述,揭示TTRL如何利用多数投票机制为无标签数据生成奖励信号,从而推动语言模型在数学推理等复杂任务中的性能飞跃。准备好,我们即将踏上一场关于人工智能自进化奥秘的科学之旅!


🌟 引言:从监督到自进化的人工智能新纪元

人工智能的进步如同人类文明的演化:从依赖导师指导的学徒制,到能够自主探索的探险家。近年来,大型推理模型(LRMs)如DeepSeek-R1和OpenAI的o1通过强化学习(RL)和链式思维(CoT)显著提升了复杂推理能力。例如,o1在ARC-AGI-1基准测试中取得了75.7%的成功率,令人叹为观止。然而,当面对全新的ARC-AGI-2基准时,其成功率骤降至4%,暴露了传统方法对标注数据的依赖性。Silver和Sutton(2025)提出的“经验时代”理念,呼吁人工智能从依赖人类监督转向通过自身经验自进化。

TTRL正是这一理念的先锋。它允许模型在测试时(即推理阶段)通过强化学习直接适应无标签的测试数据,无需外部标注。TTRL的核心创新在于利用模型自身的输出,通过多数投票机制估算奖励信号,从而驱动强化学习。这种方法好比让探险家通过观察周围环境的变化,推断出前进的方向。实验表明,TTRL在数学推理任务(如AIME 2024)中将Qwen2.5-Math-7B模型的pass@1性能提升了惊人的211%,平均提升76%。更令人振奋的是,TTRL不仅提升了单次推理的准确率(pass@1),还通过多数投票改善了测试时扩展(TTS)的性能,展现出超越初始模型多数投票上限(maj@n)的潜力。

注解:pass@1指模型在单次推理中正确回答的概率,而maj@n指在多次采样中通过多数投票选择最常见答案的准确率。TTRL的独特之处在于,它仅以maj@n为监督信号,却能显著提升pass@1,甚至超越maj@n的性能上限。


🧠 TTRL的奥秘:从无标签数据中提取智慧

🚀 核心方法:测试时强化学习的框架

TTRL的运行机制可以类比为一名棋手在没有对手棋谱的情况下,通过自我对弈提升棋艺。给定一个输入提示(状态)( x x x ),模型根据参数化的策略 ( π ( y ∣ x ; θ ) \pi(y | x; \theta) π(yx;θ) ) 生成输出 ( y y y )。在传统强化学习中,奖励信号由外部标注提供,但TTRL面临的无标签环境意味着奖励信号必须从模型自身生成。

TTRL的解决方案是通过重复采样生成多个候选输出 ( { y 1 , y 2 , … , y N } \{y_1, y_2, \dots, y_N\} {y1,y2,,yN} ),然后利用多数投票或其他聚合方法估算出一个共识输出 ( y ∗ y^* y ),作为代理的“最优动作”。随后,环境根据采样输出 ( y y y ) 与共识输出 ( y ∗ y^* y ) 的匹配程度,提供一个基于规则的奖励 ( r ( y , y ∗ ) r(y, y^*) r(y,y) )。强化学习的优化目标是最大化期望奖励:

max ⁡ θ E y ∼ π ( ⋅ ∣ x ; θ ) [ r ( y , y ∗ ) ] \max_{\theta} \mathbb{E}_{y \sim \pi(\cdot|x; \theta)} [r(y, y^*)] θmaxEyπ(x;θ)[r(y,y)]

模型参数 ( θ \theta θ ) 通过梯度上升更新:

θ ← θ + η ∇ θ E y ∼ π ( ⋅ ∣ x ; θ ) [ r ( y , y ∗ ) ] \theta \leftarrow \theta + \eta \nabla_{\theta} \mathbb{E}_{y \sim \pi(\cdot|x; \theta)} [r(y, y^*)] θθ+ηθEyπ(x;θ)[r(y,y)]

其中 ( η \eta η ) 是学习率。这一过程使模型能够在推理阶段动态适应分布变化的输入,无需依赖标注数据。

注解:这里的“多数投票”类似于一群探险家在迷雾中投票决定前进方向,虽然每个人的判断可能不完美,但集体的智慧往往能接近真相。

在这里插入图片描述

图1:TTRL的工作流程。模型通过重复采样生成候选输出,利用多数投票估算标签并计算奖励,从而驱动强化学习。


在这里插入图片描述

🗳️ 多数投票奖励函数:从混乱中提炼秩序

TTRL的奖励函数是其成功的关键。给定一个问题 ( x x x ),模型生成一组输出 ( { y i } i = 1 N \{y_i\}_{i=1}^N {yi}i=1N ),通过答案提取器处理后得到预测答案集合 ( P = { y ^ i } i = 1 N P = \{\hat{y}_i\}_{i=1}^N P={y^i}i=1N )。多数投票机制选择最常见的预测答案 ( y ^ \hat{y} y^ ) 作为估计标签,然后根据以下规则计算奖励:

R ( y ^ i , y ^ ) = { 1 , if  y ^ i = y ^ , 0 , otherwise . R(\hat{y}_i, \hat{y}) = \begin{cases} 1, & \text{if } \hat{y}_i = \hat{y}, \\ 0, & \text{otherwise}. \end{cases} R(y^i,y^)={1,0,if y^i=y^,otherwise.

这一过程的伪代码如下:

from collections import Counter

def majority_voting_reward_fn(outputs):
    # 提取每个输出的答案
    answers = [extract_answer(output) for output in outputs]
    # 找到多数答案
    counts = Counter(answers)
    majority_answer, _ = counts.most_common(1)[0]
    # 分配奖励:与多数答案匹配为1,否则为0
    rewards = [1 if ans == majority_answer else 0 for ans in answers]
    return rewards

outputs = llm.generate(problem, n=N)
rewards = majority_voting_reward_fn(outputs)

这种奖励机制的妙处在于,它利用了模型自身的先验知识,通过集体的“共识”生成可靠的监督信号。即便估计的标签并非完全正确,奖励信号的鲁棒性也能保证学习的稳定性。

注解:多数投票奖励函数类似于民主投票,尽管单个选民的判断可能有偏差,但多数人的选择往往更接近正确答案。这种机制在TTRL中充当了“虚拟导师”的角色。


📊 实验结果:TTRL的惊人表现

🔬 实验设置:多样化的模型与任务

为了验证TTRL的普适性,研究团队在多种模型和任务上进行了广泛实验。测试模型涵盖了数学基础模型(如Qwen2.5-Math-1.5B和7B)、通用基础模型(如Qwen2.5-7B和32B)、指令模型(如LLaMA-3.1-8B-Instruct)和推理模型(如Skywork-OR1-Math-7B)。任务包括数学推理基准AIME 2024、AMC、MATH-500,以及研究生级别的GPQA-Diamond。

实验采用pass@k评估协议,主要报告pass@1(单次推理准确率),使用温度为0.6、top-p为0.95的非零温度采样,生成16个响应(32k上下文时为4个)。TTRL使用GRPO算法实现,采样64个响应用于多数投票标签估计,训练时下采样32个响应。实验在8个NVIDIA A100 40GB GPU上进行。


📈 主要成果:性能飞跃与泛化能力

TTRL在几乎所有任务和模型上都表现出色。以下是主要成果的总结:

  • 显著的性能提升:在AIME 2024上,TTRL将Qwen2.5-Math-7B的pass@1从12.9%提升至40.2%,增幅达211.6%。在MATH-500上,Qwen2.5-Math-1.5B的pass@1从32.7%跃升至73.0%,增幅123.2%。平均而言,TTRL在四个基准上的性能提升达76%。
模型AIME 2024AMCMATH-500GPQA平均提升
Qwen2.5-Math-1.5B7.7 → 15.8 (+105.2%)28.6 → 48.9 (+71.0%)32.7 → 73.0 (+123.2%)24.9 → 26.1 (+4.8%)+74.4%
Qwen2.5-Math-7B12.9 → 40.2 (+211.6%)35.6 → 68.1 (+91.3%)46.7 → 83.4 (+78.6%)29.1 → 27.7 (-4.8%)+76.5%
Qwen2.5-7B7.9 → 23.3 (+194.9%)34.8 → 56.6 (+62.6%)60.5 → 80.5 (+33.1%)31.8 → 33.6 (+5.7%)+43.7%
Qwen2.5-32B7.9 → 24.0 (+203.8%)32.6 → 59.3 (+81.9%)55.8 → 83.2 (+49.1%)33.2 → 37.7 (+13.6%)+57.7%
LLaMA3.1-8B-Instruct4.6 → 10.0 (+117.4%)23.3 → 32.3 (+38.6%)48.6 → 63.7 (+31.1%)30.8 → 34.1 (+10.7%)+30.6%
Qwen3-8B (非推理模式)26.9 → 46.7 (+73.6%)57.8 → 69.1 (+19.6%)82.3 → 89.3 (+8.5%)48.1 → 53.0 (+10.2%)+20.0%

表1:TTRL在各任务上的主要结果,展示了显著的性能提升。

  • 推理模型的进一步优化:即使是经过广泛后训练的推理模型(如Skywork-OR1-Math-7B和Qwen3-8B推理模式),TTRL仍能带来显著提升。例如,Skywork-OR1-Math-7B在AIME 2024上的pass@1从66.7%提升至75.0%。
模型AIME 2024
Skywork-OR1-Math-7B66.7 → 75.0 (+8.3)
Qwen3-8B (推理模式)72.5 → 82.5 (+10.0)

表2:TTRL在推理模型上的结果,显示其对高性能模型的优化能力。

  • 泛化能力:TTRL在目标任务上的训练不仅提升了该任务的性能,还在分布外的其他任务上表现出色。例如,在AIME 2024上训练的Qwen2.5-Math-7B模型,在AMC和MATH-500上的pass@1分别提升至23.3%和39.8%,表明TTRL的改进具有通用性,而非过拟合。

在这里插入图片描述

图2:TTRL的分布外性能,展示了其泛化能力。

  • 与不同RL算法的兼容性:TTRL与多种强化学习算法(如PPO和PRIME)兼容,在MATH-500上的性能轨迹高度一致,表明其鲁棒性和灵活性。

在这里插入图片描述

图3:TTRL与不同RL算法的性能对比,显示其兼容性。


🔍 深入分析:TTRL为何如此有效?

❓ 问题1:TTRL的性能上限有多高?

TTRL的性能令人惊叹,因为它不仅达到了传统自训练的上限(初始模型的maj@n),还接近了直接在有标签测试数据上进行强化学习的性能(RL leakage)。以下是关键发现:

  • 超越多数投票上限:TTRL以初始模型的maj@n为监督信号,但最终的avg@64性能显著超越了初始的maj@64。例如,在MATH-500上,Qwen2.5-Math-7B的avg@64从66.3%提升至84.2%,比初始maj@64高出近20个百分点。这种“自举式”提升表明,TTRL通过自我强化循环,突破了初始模型的性能天花板。

在这里插入图片描述

图4:TTRL与初始模型的多数投票性能对比,显示其超越上限的能力。

  • 接近有标签训练的性能:在MATH-500上,TTRL的性能曲线与直接使用真实标签的RL(leakage)极为接近,表明其在无监督环境下的效率堪比有监督学习。这对于小型模型尤为重要,例如Qwen2.5-Math-1.5B在MATH-500上的pass@1提升了123.2%,证明了TTRL在资源受限场景下的潜力。

在这里插入图片描述

图5:TTRL与RL(leakage)的性能对比,显示其接近有标签训练的效果。

注解:TTRL的“自举”机制类似于一名学生通过反复练习和自我纠正,最终掌握了远超课本内容的知识。


❓ 问题2:TTRL为何有效?

TTRL的成功归功于三个关键因素:标签估计、奖励计算和在线学习。

  • 标签估计的鲁棒性:尽管TTRL的标签估计可能不准确,强化学习的特性使其对奖励噪声具有鲁棒性。研究表明,奖励信号不必完全精确,只需提供探索方向即可。此外,模型自身的奖励估计可能比外部奖励模型更适合指导学习。

  • 奖励计算的“幸运命中”:在数学任务中,奖励基于预测答案与估计标签的比较。即使估计标签错误,只要预测答案与估计标签不同,验证器仍会分配正确的负奖励(“幸运命中”)。例如,在AIME 2024上,Qwen2.5-Math-7B的标签准确率仅为37%,但奖励准确率高达92%,因为模型的错误预测高度分散,导致大多数输出获得正确奖励。

在这里插入图片描述

图6:“幸运命中”机制,展示了错误标签仍能生成正确奖励的场景。

  • 在线学习的动态性:TTRL采用在线强化学习,随着模型能力提升,多数投票生成的标签质量也在提高。这种动态反馈循环使TTRL能够持续自我进化,而非局限于静态的监督信号。

注解:TTRL的“幸运命中”就像掷骰子:即使你猜错了幸运数字,只要你的选择与错误答案不同,你仍然可能获得正确的反馈。


❓ 问题3:TTRL何时可能失败?

尽管TTRL表现优异,但在某些情况下可能失效:

  • 缺乏先验知识:TTRL依赖模型的先验知识来处理测试数据的复杂性。在MATH-500的难度分级实验中,随着问题难度从L1到L5增加,Qwen2.5-Math-1.5B的性能增幅从175.3%下降至75.3%,表明先验知识不足会限制学习效果。
难度级别基础准确率TTRL准确率增幅
L125.971.2+175.3%
L233.076.2+130.8%
L336.376.3+110.2%
L432.558.7+80.4%
L522.339.2+75.3%

表3:TTRL在MATH-500不同难度级别上的性能,显示先验知识的影响。

  • 超参数设置不当:强化学习的超参数(如温度和训练轮数)对TTRL的稳定性至关重要。例如,温度过高(1.0 vs. 0.6)可能导致输出熵过高,训练失败。实验显示,失败的尝试在整个训练过程中熵持续高企。

在这里插入图片描述

图7:TTRL失败尝试的熵曲线,显示超参数不当的影响。


🌍 相关工作:TTRL在测试时扩展与强化学习的交汇处

🛠️ 测试时扩展(TTS)

测试时扩展通过在推理阶段增加计算资源提升模型性能,包括并行生成(如多数投票、最佳N选)和顺序生成(如链式思维)。DeepSeek-R1通过基于结果的强化学习实现了推理能力的突破,而TTRL则将测试时训练(TTT)与强化学习结合,填补了这一领域的空白。


🧮 强化学习与推理

强化学习在提升LLMs的推理能力方面至关重要,如RLHF和GRPO。然而,现有方法通常依赖有标签数据,而TTRL通过自我奖励机制实现了无监督强化学习。相比其他自监督方法(如自奖励和自博弈),TTRL的多数投票机制避免了奖励操纵问题,为数学推理提供了更可靠的信号。


🎯 结论与展望:迈向自进化的未来

TTRL开启了人工智能自进化新时代的序幕。通过多数投票奖励函数,它使语言模型能够在无标签测试数据上通过强化学习持续改进,展现了惊人的性能提升和泛化能力。TTRL不仅为数学推理任务提供了实用解决方案,还为更广泛的领域(如代理任务和科学发现)铺平了道路。

然而,TTRL仍需进一步探索。例如,理论分析可以揭示其收敛性,实时数据流的学习可以扩展其应用场景,大规模自监督训练可能释放更大的潜力。未来的探险家们,准备好迎接这场自进化的革命了吗?


📚 参考文献

  1. Guo, D., et al. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint arXiv:2501.12948.
  2. Silver, D., & Sutton, R. S. (2025). Welcome to the era of experience. Google AI.
  3. Sun, Y., et al. (2019). Test-time training for out-of-distribution generalization. Arxiv.
  4. Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35:24824–24837.
  5. Yang, A., et al. (2024a). Qwen2 technical report. arXiv preprint arXiv:2407.10671.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

步子哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值