完全开源的7B模型,性能比肩主流LLM,训练成本仅16万美元,复现DeepSeek的强化学习!

大模型时代的“开源困境”

自从 GPT-3 横空出世,生成式AI彻底点燃了全球科技圈:

  • GPT-4、Claude 3、Gemini、DeepSeek,不断刷新智能上限
  • 生成文字、代码、图像,跨模态进步一日千里
  • 各行各业争相拥抱大语言模型(LLMs),新的创业潮汹涌而来

尽管LLMs如GPT-4、Claude等展现了惊人的能力,但闭源模型的闭源特性让研究者难以深入理解其运作机制,同时开源模型的开放程度有限:

  • 绝大多数顶尖模型闭源,仅限API调用
  • 商业化受限,API费用高昂,且随时可能涨价
  • 数据隐私、合规性问题难以把控
  • 对于开源模型,往往只公开模型权重,而关键的训练代码、数据集和配置却被隐藏,这严重阻碍了学术研究和商业化应用

Moxin-7B的诞生,正是为了解决这一问题! 它由来自东北大学、哈佛、康奈尔等机构的研究团队联合开发,完全遵循“开源科学”原则,公开了从数据清洗到强化学习的全流程细节,从预训练到DeepSeek同款强化学习,成为目前透明度最高的开源LLM之一。

Moxin-7B的开源贡献

  • Moxin-7B-Base 权重、预训练数据与代码
  • Moxin-7B-Instruct 权重、SFT与DPO的训练数据与代码
  • Moxin-7B-Reasoning 权重、GRPO的训练数据与代码

GitHub:github.com/moxin-org/Moxin-LLM
Arxiv: https://arxiv.org/abs/2412.06845

Moxin-7B的三大核心突破

  1. 真正的“开源科学”:从数据到模型的全透明
  • 完整公开:包括预训练代码、超参数配置、数据处理脚本、SFT/RLHF训练框架,权重等等。
  • 数据集透明:
    • 预训练数据:基于高质量语料库SlimPajama(627B tokens)和DCLM-BASELINE,经过严格去重和过滤。
    • 指令微调数据:使用Tulu 3和Infinity Instruct,涵盖数学、代码、科学文献等多领域任务。
    • 强化学习数据:采用OpenThoughts和OpenR1-Math-220k,通过DeepSeek R1生成的高质量数学推理数据。
  1. 高性能低成本:小模型的大能量
  • 训练成本仅16万美元(对比:GPT-3训练成本约460万美元)。
  • 评测表现亮眼:
    • 零样本任务:在ARC-C(AI2推理挑战)上达到58.64%,超越LLaMA 3.1-8B(53.67%)和Qwen2-7B(50.09%)。
    • 数学推理:经过RL微调后,在MATH-500上准确率68%,超越70B参数的Llama-3-Instruct模型(64.6%)。
    • 长上下文支持:通过滑动窗口注意力(SWA)和分组查询注意力(GQA),高效处理32K长文本。
  1. 技术创新:从架构到训练策略
  • 模型架构:基于Mistral-7B改进,深度扩展至36层,采用预层归一化和混合精度训练,提升稳定性。
  • 后训练优化:
    • 指令微调(SFT):使用Tulu 3框架,在939K指令数据上训练,增强多任务能力。
    • 偏好优化(DPO):通过LLM-as-a-judge标注的偏好数据,让模型输出更符合人类价值观。
  • 强化学习(RL):
  • 采用GRPO算法(类似DeepSeek R1),仅用7B参数即可实现高效推理。
  • 训练框架DeepScaleR和AReal均开源,支持社区复现。
  • 体现出强化学习对7B规模的小模型也有效果。

技术细节大揭秘:打造强力 7B 模型的秘密

1. 基础架构:在 Mistral-7B 上全面增强

  • 36层 Transformer(比原版 Mistral-7B 的32层更深)
  • 4096维隐藏层,32个Attention头
  • GQA(Grouped Query Attention)+ SWA(Sliding Window Attention),支持32K上下文处理,且推理速度更快、内存占用更低
  • 混合精度训练(FP16)+ 激活检查点(Activation Checkpointing),显著减少训练显存开销
  • 采用“滚动缓存机制”,在超长文本推理时,将注意力存储限制在固定窗口,既保持推理质量,又避免显存爆炸

2. 数据策略:质量远胜普通爬虫数据

Moxin-7B使用了极为精细的数据筛选流程:

  • 文本数据:SlimPajama + DCLM-Baseline
    • 去除短文本、低质量、重复网页,提升语料干净度
    • 基于MinHash-LSH技术做跨域去重,相似度阈值控制在0.8以内
    • 清洗后仅保留约627B Token(RedPajama原版的49%大小),但信息密度更高
  • 代码数据:The Stack-dedup
    • 6TB开源许可代码,涵盖358种语言
    • 进一步近似去重,避免重复训练,移除40%以上重复或近重复代码片段
    • 助力模型在编码理解、代码生成任务上有优异表现,提升推理能力
  • 推理/数学增强数据:
    • 采用高质量公开数据
    • 集中提升推理、数学、常识问答等方面能力

3. 训练过程:高效且可控

  • 三阶段预训练策略:
    1.基础阶段(2K context)
    2.长上下文阶段(4K context)
    3.能力强化阶段
  • 使用Colossal-AI进行训练加速:
    1.混合并行(Data Parallelism + Model Parallelism)
    2.ZeRO优化(减少冗余存储)
    3.混合精度训练
    4.动态调度、异步通信加速
  • 训练成本仅约 16万美元!
    1.为小型研究团队/企业提供了现实范例

4. 微调与强化学习:能力全面拉满!

预训练结束后,Moxin团队采用双路线后期优化:

  • 指令微调(SFT+DPO)
    • 采用open-instruct开源框架
    • 基于Tülu 3和Infinity Instruct数据集,采用多源指令数据(如CoCoNot, OpenMathInstruct, Evol-CodeAlpaca等)
    • 使用DPO(Direct Preference Optimization)进一步对齐人类偏好
    • 结果:生成回答更流畅、理解指令更准确
  • 推理强化(CoT + GRPO)
    • 使用高质量链式推理数据(OpenThoughts、OpenR1-Math等)进行微调
    • 引入GRPO强化学习,提升复杂推理/数学答题能力
    • 采用开源训练框架DeepScaleR,支持社区复现
    • 结果:Moxin Reasoning模型,在数学推理能力上表现卓越

Moxin vs. 主流模型:实测对比

  • Base 模型
    • Zero-shot 测试

在这里插入图片描述

表中Moxin-7B-Enhanced即为Moxin-7B-Base模型,可以观察到,相比于其他Base模型如Qwen2-7B、Llama3.1-8B等,Moxin-7B-Base表现出强劲性能。

  • Few-shot 测试

在这里插入图片描述

表中Moxin-7B-Enhanced即为Moxin-7B-Base模型,可以观察到,相比于其他Base模型如Qwen2-7B、Llama3.1-8B等,Moxin-7B-Base表现出强劲性能。

  • Instruct模型

在这里插入图片描述

表中Moxin-7B-DPO即为Moxin-7B-Instrcut模型,可以观察到,相比于其他Instruct模型如Qwen2.5-7B-Instruct,Moxin-7B-Instruct表现亮眼。

  • Reasoning模型

在这里插入图片描述

相比于其他baselines如Qwen2.7-Math-7B-Base,Moxin-7B-Reasoning表现突出,体现出强化学习对7B规模的小模型也有效果。

结语:开源的力量

Moxin-7B证明了一点:高性能LLM不必是黑箱。它的全透明策略不仅降低了研究门槛,还为中小企业提供了可控的AI解决方案。Moxin-7B的开源贡献:

  • Moxin-7B-Base 权重、预训练数据与代码
  • Moxin-7B-Instruct 权重、SFT与DPO的训练数据与代码
  • Moxin-7B-Reasoning 权重、GRPO的训练数据与代码

立即体验:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CSDN资讯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值