本段源自 DeepSeek-R1:通过强化学习激励大语言模型的推理能力。
在强化学习过程接近收敛时,我们通过对强化学习训练得到的检查点进行拒绝采样来创建新的监督微调(SFT)数据,并结合来自DeepSeek-V3的监督数据,这些数据涉及写作、事实问答和自我认知等领域,然后重新训练DeepSeek-V3-Base模型。在使用新数据对模型进行微调后,将所有场景的提示词考虑进来,对检查点进行额外的强化学习训练。
下面我用白话通俗易懂的解释下:将这个过程与人类思考的“多角度验证”进行对比。尽量说的通俗易懂,结构清晰,分点说明相似点和不同点,帮助大家准确理解技术过程,同时巩固类比理解。
相似点(合理之处):
-
初步答案的生成与筛选(拒绝采样)
-
强化学习接近收敛时的检查点(模型中间状态)生成候选答案,类似人初步想到多种可能的回答。
-
拒绝采样:技术上是筛选符合特定标准(如奖励模型的高分结果)的答案,类似于人在初步答案中剔除明显不合理的内容,保留质量较高的选项。
-
-
多角度数据补充(监督数据结合)
-
加入写作、事实问答、自我认知等领域的监督数据(DeepSeek-V3),类似人在初步思考后主动查阅资料、调用知识库或参考过往经验,确保答案的准确性和全面性。
-
-
迭代优化(多次训练)
-
微调后再次进行强化学习训练,类似于人通过反复验证、修正答案(比如向他人请教或模拟不同场景),最终输出更完善的结果。
-
关键差异(需注意的技术逻辑):
-
流程的严格分阶段
-
技术流程是先强化学习 → 生成数据 → 监督微调 → 再强化学习,而人类思考通常是多环节混合进行的(如同时调用知识和直觉)。
-
-
数据驱动的自动化筛选
-
拒绝采样依赖预设的奖励模型或指标自动筛选数据,而人类筛选答案更多依赖主观判断或经验。
-
-
模型能力的继承性
-
监督数据(DeepSeek-V3)本身是高质量标注数据,用于直接注入领域知识;人类“结合各种角度”可能更依赖主动联想,而非严格调用结构化知识库。
-
总结(类比修正版):
可以理解为:
当模型初步通过强化学习得到一些答案后,它并不直接采纳这些结果,而是像人一样——
-
初步过滤:剔除低质量答案(拒绝采样),
-
知识补充:结合专业知识库(监督数据)填补漏洞,
-
二次验证:重新思考所有可能场景(额外强化学习),最终输出更可靠、全面的答案。
但与人类不同的是,这一过程完全由数据和算法驱动,且分阶段严格推进,而非依赖主观意识。