论文主要内容与创新点总结
一、主要内容
-
研究背景与问题
强化学习(RL)是提升大语言模型(LLM)推理能力的关键技术,但数据效率低下是主要瓶颈。现有数据选择方法多针对监督微调(SFT),在RL场景下效果有限,且存在计算效率低的问题(如需要对完整数据集进行多轮训练)。 -
提出方法:LearnAlign
- 基于改进的梯度对齐,通过估计数据点对模型训练的影响,智能选择具有高可学习性和代表性的推理数据。
- 引入基于成功率(success rate)的数据可学习性指标 ( V(\xi) = p(1-p) ),解决梯度范数中响应长度偏差(response-length bias)的问题,避免模型偏向选择短序列数据。
- 计算流程:通过热身训练(warmup training)估计梯度信息,结合梯度对齐分数与可学习性指标