LF AI & Data 董事黄之鹏:AI「开放体验时代」已来,六大趋势与 OpenRLGR 生态揭秘!

人工智能领域素有“一代新人换旧人”的说法,但有些思考却历久弥新。几年前,强化学习之父、2024 年图灵奖得主 Rich Sutton 写下了一篇引人深思的短文——《苦涩的教训》(The Bitter Lesson),被信仰 Scaling Law 的 OpenAI 研究员们奉为圭臬。这一思想认为,训练模型不应过度高估人类的先验知识,而应更多地依赖计算的力量,让机器从大规模的数据中自行学习。

在几年后的今天看来,苦涩的教训仍具有强大的解释力,并持续演进。今年四月,同为强化学习领域领军人物的 David Silver 和 Rich Sutton 合作写了一篇雄文,又提出了一个极具前瞻性的概念——“体验的时代”(The Era of Experience)。

如果说《苦涩的教训》强调了通用方法与大规模计算的重要性,是 AI 智能涌现的“燃料”;那么“体验的时代”则更进一步,将 AI 学习的源泉从静态的、人类标注的数据集,拓展到了 AI 智能体通过与环境动态交互所产生的源源不断的“体验”——这可以被视为智能体自我生成的“数据”。

在巨人们的肩膀上,今年 5 月 6–7 日于巴黎举办的国际开源 AI 盛会 GOSIM AI Paris 2025 ,有一场令人深刻的 Keynote 演讲化用了这一标题——“开放体验的时代”(The Era Of Open Experience)。LF AI & Data 基金会董事会成员黄之鹏敏锐地捕捉到,如果 AI 的未来真的在于从“体验”中汲取智慧,那么如何让这些“体验”的产生、积累、分享和利用变得更加“开放”(Open),就成了推动整个领域持续向前发展的关键所在。

图片

LF AI & Data 基金会董事会成员黄之鹏

图片

开放协作,从 LF AI & Data 说起:掌舵 67 个项目,聚拢 10 万开发者

在展开对具体技术趋势的剖析之前,黄之鹏首先介绍了 LFAI & Data 基金会。作为 Linux 基金会旗下最早投身人工智能开源事业的组织之一,从其前身 LF Deep Learning 算起,这个基金会已在开源领域深耕多年。时至今日,LFAI & Data 已经成长为一个名副其实的“开源 AI 温室”,孕育了多达 67 个开源项目,汇聚了超过 2 亿行代码、33 万余次提交、近 3000 个贡献组织以及超过 10 万名开发者。这些数字的背后,是一个充满活力、致力于通过开源协作推动 AI 与数据技术创新的全球性社区。它不仅提供了一个中立的平台来托管和治理开源项目,更重要的是,它在积极构建一个能够让不同背景、不同专长的开发者共同参与、贡献和受益的生态环境。

为了更好地践行“开放”与“协作”的理念,LFAI & Data 基金会发起了一系列富有成效的行动。比如,在全球范围内建立区域性用户组(RUGs),旨在打破地理隔阂,让各地的开发者能够更紧密地交流和合作。目前,亚太地区和日本的用户组已经相当活跃,黄之鹏也借此机会鼓励欧洲的同仁们加入进来,共同为本土的开源 AI 社区注入活力。另一项值得关注的举措是内部的“生成式人工智能共享平台”(Generative AI Commons),其核心产出之一便是“模型开放性框架”(Model Openness Framework, MOF)。

在生成式 AI 模型层出不穷的今天,模型的透明度和可信度变得尤为重要。MOF 试图为形形色色的开源模型,从智源研究院的 Aquila 到法国 Mistral AI 的模型,再到基金会自家的 RWKV 项目,提供一个清晰的开放程度分类和追踪机制,以此增强透明度,促进社区的信任与协作。

可以说,LFAI & Data 基金会及其孵化的众多项目,如专为AI应用设计的高性能向量数据库 Milvus、实现不同AI框架间模型互操作性的 ONNX 开放格式、以及强大的云原生工作流编排平台 Flyte 等,共同构筑了支撑“开放体验”时代所需的技术基础设施,为开发者提供了从数据处理、模型训练到部署应用的全链路开源工具支持。

图片

AI 模型发展的六大趋势观察

在这样一个强调“开放”与“体验”的新时代,黄之鹏观察到了许多正在涌现的关键技术趋势,并系统地梳理了六个方向:

第一个值得关注的动向,是多模态大语言模型(MLLM)正朝着一个统一的架构迈进。如今研究者们不再满足于为文本、图像等不同模态分别设计模型,而是努力构建一个能够无缝处理多种数据类型的统一框架。这背后的驱动力在于,现实世界的信息往往是多模态交织的,一个真正智能的系统需要具备整合和理解这些不同来源信息的能力。黄之鹏提及,2024 年下半年或许会成为这一领域的转折点,Meta 提出的 BLT(Byte Latent Transformer)架构便是一个信号,它试图从最基础的字节层面实现对不同数据类型的统一编码。这种统一的追求,体现在对“Token 级”与“Byte 级”处理方式的探索与融合上。

直接处理原始字节流的 Byte 级方法,天然规避了针对特定语言或模态设计的 Tokenizer 所带来的词表外(Out-of-Vocabulary)问题,对多语言混合、代码处理乃至非结构化数据更具普适性。同时,经典的编码器-解码器(Encoder-Decoder)架构,因其在“理解”(编码器对输入信息进行表征)与“生成”(解码器基于表征产生输出)上的清晰分工,也可能在处理复杂多模态任务时迎来复兴,为不同模态信息的分别编码和统一解码提供灵活性。此外,像 VAE(变分自编码器)在 MLLM 中用于图像等连续数据到离散隐空间的转换,Transfusion 模型允许图像内部不同补丁(patches)间进行交互式调节的机制,以及基于扩散模型的自回归方法等,都在为构建更通用的、能够从多模态体验中学习的 MLLM 添砖加瓦。

图片

第二个核心趋势,是注意力机制的持续进化,特别是向线性化、稀疏化和混合化的方向发展。我们知道,标准 Transformer 中的全注意力机制,其每一个 Token 都要与序列中的其他所有 Token 计算相关性,这种 O(N^2) 的计算复杂度是处理长序列时难以逾越的障碍,极大地限制了模型能够有效处理的上下文长度。为此,研究者们付出了巨大努力。线性注意力,如 RWKV、RetNet、Mamba 等模型所探索的,试图通过各种数学技巧(如核函数近似、循环神经网络结构引入等)将复杂度降至 O(N),这对于处理超长文本、高分辨率图像序列或视频等应用场景至关重要,能够显著降低训练和推理的成本。

黄之鹏也提到了 FlashLinearAttention 这样的开源项目,正在打造线性注意力机制的开源基础设施。稀疏注意力则是另一条并行探索的路径,其核心思想是基于这样一个洞察:并非序列中的所有信息单元都同等重要,也并非所有单元都需要与其他所有单元进行直接交互。DeepSeek 的 NSA(Native Sparse Attention)架构和月之暗面的 MoBA(Mixture of Block Attention)架构,便是这一方向的代表,它们分别通过精巧的原生稀疏设计或借鉴 MoE(Mixture of Experts)思想动态选择性地激活注意力计算,力求在保持模型性能的同时大幅度降低实际计算量。而混合注意力,则试图在前两者的基础上取得一种平衡,结合全注意力强大的表达能力与高效注意力的计算优势。例如 MiniMax-01 模型采用大部分注意力层使用线性注意力、辅以少量关键层使用全注意力的做法,在长上下文任务中取得了效果。

图片

第三个崭露头角的趋势,是二阶优化方法开始受到更多关注。在模型训练中,优化算法扮演着“指挥官”的角色,引导模型参数向着损失函数最小的方向更新。长期以来,Adam、SGD 等一阶优化方法因其简单有效而成为绝对的主流。但随着模型规模的急剧膨胀和训练任务的日益复杂,研究者们开始重新审视那些能够利用更多梯度信息的二阶优化方法。二阶方法,因其理论上能更准确地把握损失函数的曲率信息(即梯度的梯度),从而可能实现更快的收敛速度,并有可能跳出困扰一阶方法的局部最优或鞍点。

尽管直接计算和利用二阶导数(海森矩阵)的成本对于现代大模型而言是天文数字,但各种巧妙的近似方法正在不断涌现。黄之鹏提及的 Muon 优化器便是一个例子,它通过对模型参数更新过程中的几何特性进行分析,并结合牛顿-舒尔茨迭代等技巧进行近似计算,在某些场景下展现出比 AdamW 更高的计算效率。月之暗面在其实际模型训练中采用 Muon,并取得了不错的效果,这无疑为二阶优化方法的潜力提供了来自产业界的有力佐证。谷歌的 Shampoo、学术界提出的各类预条件随机梯度下降(PSGD)变体,以及字节跳动的 Mars 等研究,也预示着在模型规模持续膨胀、训练成本日益高昂的今天,对更高效、更智能的优化算法的探索远未停止,这对于降低“开放体验”时代大规模模型训练的门槛至关重要。

图片

第四个引人深思的趋势,黄之鹏称之为从“AI for Science”(AI4S)到“Equivariance4ALL”的理念延伸。其核心在于将源于科学研究领域的成功体验——特别是“等变性”(Equivariance)原理——推广到更广泛的 AI 应用中。

等变性,简单来说,指的是当模型的输入发生某种对称变换(例如图像旋转、分子平移)时,其输出也会相应地发生可预测的、一致的变换。在物理、化学、生物等基础科学领域,许多自然规律本身就具有对称性,利用等变性构建的模型能够更好地学习这些潜在的物理规律,从而仅用少量数据就能实现更强的泛化能力和更准确的预测。

黄之鹏提出的“Equivariance4ALL”愿景,是希望将这种深刻的洞察从科学计算的小众领域,推广到所有 AI 系统的设计之中。他强调,要让 AI 正确且高效地学习我们这个物理世界中无处不在的先验知识(比如空间关系、物体恒存性等),就必须构建具备等变性感知的 Transformer 架构,并让像“诺特定理剃刀”(Noether's Razor,将物理学中对称性与守恒量的关系引入模型学习)和 GINN(Geometry-Informed Neural Networks,在网络结构和损失函数中直接融入几何约束)这样的机制发挥作用。这不仅仅是为了提升模型在特定科学任务上的表现,更是为了赋予 AI 一种更底层的、基于物理现实的“常识”,使其能够更好地理解和适应我们这个复杂而富有结构的世界。

图片

第五个趋势,也是当前 LLM 发展中至关重要的一环,是构建强大的数据“石油钻井平台”。如果说“体验”是新时代 AI 的食粮,那么高质量、大规模、多样化的数据就是生产这些食粮的“原材料”。

随着模型对数据量的需求呈指数级增长,仅仅依赖现有的、被动收集的公开数据集已远远不够,数据的质和量都面临瓶颈。黄之鹏形象地将高质量合成数据的生产比作开采石油,足见其战略意义。他列举了多种合成数据的方法,从追求极致正确性、通过形式化程序保证数据质量的“完美验证方法”(例如基于 Coq、Lean 等证明助手的数学定理与证明过程的自动生成),到巧妙利用模型自身能力、从已知的好答案反向生成对应输入或问题的“反向翻译方法”(如学术界探索的 RetroInstruct 项目,旨在从高质量代码或文本反推生成对应的指令或上下文),再到结合奖励模型进行迭代优化和筛选的“拒绝采样方法”,以及通过精心设计的提示词工程引导模型生成特定类型、特定风格数据的“精心提示工程”。

此外,像 GANs(生成对抗网络)、扩散模型等生成式 AI 技术本身也在数据生成方面扮演着重要角色,而 RAG(检索增强生成)则通过引入外部知识库来丰富模型的“体验”来源。与此同时,自动化数据处理工具也日益受到重视,例如学术界提出的 RegMix 致力于通过算法自动发现最优的数据混合配比方案,以提升模型训练效果;而像 Hugging Face 发起的 LeRobot 项目则专注于为机器人这一具身智能的关键领域构建高质量的、包含物理交互的动作与感知数据集和工具。这一趋势清晰地表明,AI 的发展正在从“有什么数据用什么数据”的粗放阶段,转向“需要什么数据就工程化地创造什么数据”的精细化、主动化阶段。

图片

最后一个,也是当前最为火热的趋势,是模型的后训练阶段(Post-training)正日益走向舞台中央。LLM 的能力锻造,早已不再是预训练完成就万事大吉的“一锤子买卖”。模型在完成基础预训练之后,所经历的微调、对齐与专业化过程,其重要性与日俱增,并且消耗着巨大的计算资源。

黄之鹏引用了一个颇具冲击力的观点:“扩展强化学习(用于模型对齐和能力增强)的训练计算量,可能是早期基础模型(如 GPT-1 或某个基线模型 o1)整体预训练计算量的 10 倍以上”。这足以说明业界在后训练阶段投入的决心和成本之巨。在后训练阶段,强化学习(RL)无疑是核心技术。无论是通过直接偏好优化(DPO)这类更直接、可能也更高效的方法来使模型的输出更符合人类的期望和偏好,还是利用过程奖励模型(PRM)这类更细致的技术来提升模型在复杂推理任务(如数学解题、代码生成)中每一步推导的正确性和逻辑性,其根本目标都是为了让基础模型变得更可用、更可靠、更强大,更好地服务于特定的应用场景。

LLM 的价值,正越来越多地从预训练所赋予的通用语言理解和生成能力,转向后训练所精心打磨出的专业技能、安全对齐特性以及与人类价值观的一致性。

图片

另外,模型评估、机器人技术、以及机制可解释性虽未展开,但同样是极具潜力的重要部分。

图片

通过 OpenRLGR 构建开放 AI 的飞轮

在系统梳理了这些技术趋势之后,黄之鹏将焦点转向了本次演讲的核心——在这样一个“开放体验”的新纪元,我们面临的核心机遇是什么?

他的答案是:OpenRLGR(Open Reinforcement Learning with Generalized Rewards,基于广义奖励的开放强化学习)及其所催生的开放协作生态。

他认为,DeepSeek R1 模型的发布,可以被视为一个引爆点,它不仅展示了预训练与后训练阶段可以实现“完全解耦”——这意味着不同的团队或社区可以专注于这两个阶段的不同环节——更重要的是,其后训练阶段,特别是基于强化学习的推理能力提升过程,天然地呈现出一种适合开源协作的“飞轮效应”。想象一下:从一个基础模型出发,通过监督微调(SFT)初步提升其遵循指令的能力,然后应用强化学习,利用精心挑选的推理数据和可验证的奖励(例如数学题的正确答案、代码是否通过单元测试)进行优化,得到一个在特定推理能力上更强的模型(如 Open R1-Zero)。

图片

接着,可以从这个更强的模型中“蒸馏”出更高质量的推理数据——比如模型自己生成的、经过验证的正确推理步骤或高质量回答——这些数据又可以反过来用于指导下一轮的SFT和RL,或者用于训练更小但同样高效的特定任务模型。如此循环往复,模型的推理能力就能在社区的共同努力下持续进化。这种“模型改进 -> 数据提纯 -> 模型再改进”的闭环,正是 OpenRLGR 理念的核心机制。英伟达创始人黄仁勋也曾多次强调类似的 AI 飞轮概念,这种通过迭代反馈和 AI 自我生成数据/体验来实现持续优化的思想,与 OpenRLGR 不谋而合,都指向了AI自我进化和加速进化的可能性。

而 OpenRLGR 中的“G”,即“广义奖励”,是其超越传统强化学习的关键。传统的 RLVR(基于可验证奖励的强化学习)更多关注那些结果可以被明确量化和客观验证的领域,比如数学题的对错、代码是否通过测试等。这固然重要,因为它们为模型的优化提供了清晰、无歧义的信号。但 AI 的许多理想特质,如创造力、同理心、幽默感,乃至是否符合特定的人设(如诚实、谦逊、乐于助人),是难以用简单的规则来量化和验证的。

RLGR 正是为了解决这类“软”指标的评估和优化问题,它将奖励机制扩展到“神经奖励”,例如,可以使用一个强大的、经过对齐的 LLM 作为“裁判”(LLM-as-Judge)来评估另一个模型生成内容的质量、风格或符合度,或者通过 RLHF(基于人类反馈的强化学习)和 RLAIF(基于 AI 反馈的强化学习,即用AI来模拟人类反馈)来捕捉更细致、更主观的人类偏好。这种对奖励机制的泛化,使得强化学习能够应用于更广泛、更复杂的AI能力塑造任务中。

图片

图片

为开发者而生的开放体验时代

这样的愿景,也得到了硅谷传奇黑客 George Waters 的呼应。George 以其特有的犀利风格强调,“实验室之外的计算资源和软件工程人才,远比实验室内要多”,为了给 RLGR 的研究与实践提供一个清晰的框架,OpenRLGR 社区(George Waters 等人是其早期推动者)甚至开始着手构建一个“本体论”(Ontology),系统地对强化学习的目标和各类奖励(从可验证的数学、代码奖励,到更主观的定性判断、人设遵循等神经奖励)进行分类,这为社区成员的协作提供了共同的语言和参照系。

图片

George 的呼吁,实际上触及了一个更深层次的命题——开发者体验(Developer Experience, DX)。如果说“开放体验”是 AI 从体验中学习的新范式,那么卓越的开发者体验则是实现这一范式的核心驱动力与最终落脚点。无论是 LF AI & Data 基金会对开源工具的培育,还是 OpenRLGR 社区对协作框架的构想,或者是华为昇思 MindSpore、openEuler 这类基础软件的开源共建,其根本目标都在于降低创新门槛,提升开发效率,让全球的开发者能够更便捷、更高效地参与到这场波澜壮阔的 AI 浪潮中。一个优秀的开发者体验,通常包括易于上手的工具链、清晰完善的文档教程、活跃互助的社区支持、以及公平透明的贡献与回馈机制。

OpenRLGR 的理念并非空中楼阁,而是在一系列具体的开源项目和研究成果中逐步落地。下面这张图勾勒了这样一个分层的技术栈:从底层的开放硬件(如 RISC-V 架构的加速器)与标准化机架,到开源操作系统(如 openEuler 在其中扮演了关键的系统软件底座角色,为大规模 AI 计算提供稳定高效的运行环境),再到普惠的 AI 框架(例如昇思 MindSpore 这类致力于降低 AI 开发和运行门槛、提供全场景 AI 解决方案的框架)与云原生基础设施(如 OpenStack),向上支撑起各类模型训练、推理的工作负载,以及丰富的工具链和应用层创新。在这个生态中,每一层的开放与协同,都为上层“开放体验”的蓬勃发展提供坚实土壤,共同推动 AI 技术的普惠与进步。

图片

基于这些观察和思考,黄之鹏最后发出了明确的行动倡议:在 LFAI & Data 基金会的支持和协调下,共同建设一个专注于开源 RLGR 的社区。这个社区将围绕推理数据的选择与精炼(如何构建更大规模、更高质量、更多样性的推理数据集?)、强化学习框架的开发与共享(如何提供更易用、更高效、更通用的 RL 训练和推理框架?)、各类排行榜的建立(如何设计公平、全面的基准来衡量模型的推理能力和对齐程度?)、高效微调适配器的研究(如何让社区成员能以较低成本在自己的数据上微调和优化模型?)、验证器与模拟环境的构建(如何创造出能够有效评估和提升模型在特定场景下表现的仿真环境?),以及评估基准的制定等关键方向展开协作。其最终目标,并不仅仅局限于 RLGR 本身,而是展望一个更为宏大的、服务于整个“开放体验”时代的完整开源生态系统。

黄之鹏在 GOSIM 大会上的分享,为我们描绘了 AI 发展的一个新航向:智能源于体验,而体验的价值在于开放。这不仅是对技术趋势的判断,更是一份构建未来 AI 生态的蓝图,基金会致力于开源基础设施的建设,社区试图汇聚全球智慧共同攻克难题,而开源项目正在努力降低技术门槛,这一切努力的交汇点,正是为了千千万万的开发者,能够拥有更卓越的创造体验。

项目地址:https://github.com/OpenRLGR

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CSDN资讯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值