欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/144057789
免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。
RLHF(Reinforcement Learning from Human Feedback, 人类反馈强化学习) 的训练过程,包括:
- 第1阶段:RM(Reward Model, 奖励模型) 训练阶段。
- 第2阶段:RL 算法提升模型的得分。
在大模型的指令微调之后,模型输出可能不符合人类偏好,需要使用强化学习优化模型(RLHF),而奖励模型(RM)是强化学习的重要组件,