grpo原理

图解deepseek的grpo原理、以debug形式阅读grpo的源码
练习两天半,从零实现DeepSeek-R1(基于Qwen2.5-0.5B和规则奖励模型,GRPO),从原理讲解到代码实现,解开DeepSeek-R1的神秘面纱

第一个视频 GRPO讲解

model:参数更新的模型
ref_model:参考模型,参数不更新
在这里插入图片描述
s2没有进行梯度回传
对每个问题生成八份答案
在这里插入图片描述
问题和答案进行拼接,这样每个问题就扩展为八份文本,经过奖励模型得到分数
s3分组计算标准值和方差,而不是一个bacth内
在这里插入图片描述
kl散度保证两个分布不要差距太大
在这里插入图片描述
s4-3计算散度

  1. 在采样8个输出时,关注的是具体的输出结果,不需要更新模型,所以不需要梯度
  2. 计算KL散度时,要重新用模型预测每个token的概率值,并用于优化模型,所以需要梯度
    s4-3里面已经包含梯度
    当前模型生成策略值和参考模型生成策略值
    loss是在model层生成的这个概率值中
    在这里插入图片描述
    总的流程图
    在这里插入图片描述

第二个视频

常规的大模型训练方案:

pretrain->sft->r1
预训练-》微调-》强化学习

DeepSeek-R1-Zero

pretrain->r1
缺陷:中英文混合,格式混乱

DeepSeek-R1

pretrain->Sft一阶段->rl一阶段(针对代码数学等推理任务)->sft二阶段->r1二阶段(基于人类反馈)

sft一阶段(冷启动)

目的:引l入数千条高质量长推理链数据对基础模型微调,强制规范输出格式(如推理过程),提升可读性。
数据来源:收集DeepSeek-R1-Zero的输出结果,以可读的格式呈现,最后通过人工标注者进行后处理以优化结果

rI一阶段(推理导向的rl)

rI方法:GRPO
奖励模型:基于规则的奖励(答案准确性和语言一致性),针对代码、数学、编程等有固定答案的任务设计奖励函数。
基于规则的奖励 不存在偏差

sft二阶段

数据来源:推理数据和非推理数据合并
推理数据:rl一阶段checkpoint输出数据(60万)。rl一阶段,仅纳入了可以基于规则的奖励进行评估的数据。在sft二阶段,通过引I入额外的数据来扩展数据集,其中一些数据通过将真实答案和模型预测输入DeepSeek-V3进行判断,使用生成式奖励模型。此外,由于模型输出有时会显得混乱且难以阅读,过滤掉了包含混合语言、长段落和代码块的推理链。对于每个提示,采样多个回答,仅保留正确的回答。收集了大约60万个与推理相关的训练样本。
非推理数据:如写作、事实问答、自我认知和翻译等,重用DeepSeek-V3监督微调数据集的部分内容。收集了大约20万个与推理无关的训练样本。

rI二阶段(通用对齐的rl)

通用对齐RL(RLHF):融入人类偏好奖励模型(Helpfulness&Harmlessness),确保模型在开放域任务中的安全性与实用性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值