完全开源的7B模型，性能比肩主流LLM，训练成本仅16万美元，复现DeepSeek的强化学习！

CSDN资讯

于 2025-05-14 11:11:47 发布

阅读量1.5k

点赞数 15

文章标签：开源 Moxin-7B DeepSeek

本文链接：https://blog.csdn.net/csdnnews/article/details/147949215

版权

自从 GPT-3 横空出世，生成式AI彻底点燃了全球科技圈：

尽管LLMs如GPT-4、Claude等展现了惊人的能力，但闭源模型的闭源特性让研究者难以深入理解其运作机制，同时开源模型的开放程度有限：

Moxin-7B的诞生，正是为了解决这一问题！它由来自东北大学、哈佛、康奈尔等机构的研究团队联合开发，完全遵循“开源科学”原则，公开了从数据清洗到强化学习的全流程细节，从预训练到DeepSeek同款强化学习，成为目前透明度最高的开源LLM之一。

Moxin-7B的开源贡献

Moxin-7B的三大核心突破

完整公开：包括预训练代码、超参数配置、数据处理脚本、SFT/RLHF训练框架，权重等等。
数据集透明：
- 预训练数据：基于高质量语料库SlimPajama（627B tokens）和DCLM-BASELINE，经过严格去重和过滤。
- 指令微调数据：使用Tulu 3和Infinity Instruct，涵盖数学、代码、科学文献等多领域任务。
- 强化学习数据：采用OpenThoughts和OpenR1-Math-220k，通过DeepSeek R1生成的高质量数学推理数据。

训练成本仅16万美元（对比：GPT-3训练成本约460万美元）。
评测表现亮眼：
- 零样本任务：在ARC-C（AI2推理挑战）上达到58.64%，超越LLaMA 3.1-8B（53.67%）和Qwen2-7B（50.09%）。
- 数学推理：经过RL微调后，在MATH-500上准确率68%，超越70B参数的Llama-3-Instruct模型（64.6%）。
- 长上下文支持：通过滑动窗口注意力（SWA）和分组查询注意力（GQA），高效处理32K长文本。

模型架构：基于Mistral-7B改进，深度扩展至36层，采用预层归一化和混合精度训练，提升稳定性。
后训练优化：
- 指令微调（SFT）：使用Tulu 3框架，在939K指令数据上训练，增强多任务能力。
- 偏好优化（DPO）：通过LLM-as-a-judge标注的偏好数据，让模型输出更符合人类价值观。
强化学习（RL）：
采用GRPO算法（类似DeepSeek R1），仅用7B参数即可实现高效推理。
训练框架DeepScaleR和AReal均开源，支持社区复现。
体现出强化学习对7B规模的小模型也有效果。

1. 基础架构：在 Mistral-7B 上全面增强

36层 Transformer（比原版 Mistral-7B 的32层更深）
4096维隐藏层，32个Attention头
GQA（Grouped Query Attention）+ SWA（Sliding Window Attention），支持32K上下文处理，且推理速度更快、内存占用更低
混合精度训练（FP16）+ 激活检查点（Activation Checkpointing），显著减少训练显存开销
采用“滚动缓存机制”，在超长文本推理时，将注意力存储限制在固定窗口，既保持推理质量，又避免显存爆炸

2. 数据策略：质量远胜普通爬虫数据

Moxin-7B使用了极为精细的数据筛选流程：

文本数据：SlimPajama + DCLM-Baseline
- 去除短文本、低质量、重复网页，提升语料干净度
- 基于MinHash-LSH技术做跨域去重，相似度阈值控制在0.8以内
- 清洗后仅保留约627B Token（RedPajama原版的49%大小），但信息密度更高
代码数据：The Stack-dedup
- 6TB开源许可代码，涵盖358种语言
- 进一步近似去重，避免重复训练，移除40%以上重复或近重复代码片段
- 助力模型在编码理解、代码生成任务上有优异表现，提升推理能力
推理/数学增强数据：
- 采用高质量公开数据
- 集中提升推理、数学、常识问答等方面能力

3. 训练过程：高效且可控

三阶段预训练策略：
1.基础阶段（2K context）
2.长上下文阶段（4K context）
3.能力强化阶段
使用Colossal-AI进行训练加速：
1.混合并行（Data Parallelism + Model Parallelism）
2.ZeRO优化（减少冗余存储）
3.混合精度训练
4.动态调度、异步通信加速
训练成本仅约 16万美元！
1.为小型研究团队/企业提供了现实范例

4. 微调与强化学习：能力全面拉满！

预训练结束后，Moxin团队采用双路线后期优化：

指令微调（SFT+DPO）
- 采用open-instruct开源框架
- 基于Tülu 3和Infinity Instruct数据集，采用多源指令数据（如CoCoNot, OpenMathInstruct, Evol-CodeAlpaca等）
- 使用DPO（Direct Preference Optimization）进一步对齐人类偏好
- 结果：生成回答更流畅、理解指令更准确
推理强化（CoT + GRPO）
- 使用高质量链式推理数据（OpenThoughts、OpenR1-Math等）进行微调
- 引入GRPO强化学习，提升复杂推理/数学答题能力
- 采用开源训练框架DeepScaleR，支持社区复现
- 结果：Moxin Reasoning模型，在数学推理能力上表现卓越

Moxin vs. 主流模型：实测对比