grpo原理

最新推荐文章于 2025-06-02 01:55:47 发布

Jozky86

最新推荐文章于 2025-06-02 01:55:47 发布

阅读量916

点赞数 25

文章标签：自动驾驶人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35975367/article/details/147565362

版权

图解deepseek的grpo原理、以debug形式阅读grpo的源码
 练习两天半，从零实现DeepSeek-R1（基于Qwen2.5-0.5B和规则奖励模型，GRPO），从原理讲解到代码实现，解开DeepSeek-R1的神秘面纱

第一个视频 GRPO讲解

model：参数更新的模型
ref_model：参考模型，参数不更新
在这里插入图片描述
s2没有进行梯度回传
对每个问题生成八份答案

问题和答案进行拼接，这样每个问题就扩展为八份文本，经过奖励模型得到分数
s3分组计算标准值和方差，而不是一个bacth内

kl散度保证两个分布不要差距太大
在这里插入图片描述
s4-3计算散度

在采样8个输出时，关注的是具体的输出结果，不需要更新模型，所以不需要梯度
计算KL散度时，要重新用模型预测每个token的概率值，并用于优化模型，所以需要梯度
s4-3里面已经包含梯度
当前模型生成策略值和参考模型生成策略值
loss是在model层生成的这个概率值中

总的流程图

第二个视频

常规的大模型训练方案：

pretrain->sft->r1
预训练-》微调-》强化学习

DeepSeek-R1-Zero

pretrain->r1
缺陷：中英文混合，格式混乱

DeepSeek-R1

pretrain->Sft一阶段->rl一阶段(针对代码数学等推理任务)->sft二阶段->r1二阶段(基于人类反馈)

sft一阶段（冷启动）

目的：引l入数千条高质量长推理链数据对基础模型微调，强制规范输出格式（如推理过程)，提升可读性。
数据来源：收集DeepSeek-R1-Zero的输出结果，以可读的格式呈现，最后通过人工标注者进行后处理以优化结果

rI一阶段(推理导向的rl)

rI方法：GRPO
奖励模型：基于规则的奖励（答案准确性和语言一致性），针对代码、数学、编程等有固定答案的任务设计奖励函数。
基于规则的奖励不存在偏差

sft二阶段

数据来源：推理数据和非推理数据合并
推理数据：rl一阶段checkpoint输出数据(60万)。rl一阶段，仅纳入了可以基于规则的奖励进行评估的数据。在sft二阶段，通过引I入额外的数据来扩展数据集，其中一些数据通过将真实答案和模型预测输入DeepSeek-V3进行判断，使用生成式奖励模型。此外，由于模型输出有时会显得混乱且难以阅读，过滤掉了包含混合语言、长段落和代码块的推理链。对于每个提示，采样多个回答，仅保留正确的回答。收集了大约60万个与推理相关的训练样本。
非推理数据：如写作、事实问答、自我认知和翻译等，重用DeepSeek-V3监督微调数据集的部分内容。收集了大约20万个与推理无关的训练样本。

rI二阶段(通用对齐的rl)

通用对齐RL(RLHF)：融入人类偏好奖励模型(Helpfulness&Harmlessness)，确保模型在开放域任务中的安全性与实用性。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。