星动纪元的机器人大模型 VPP，泛化能力效果如何？与 VLA 技术的区别是什么？

最新推荐文章于 2025-06-05 00:15:00 发布

androidstarjack

最新推荐文章于 2025-06-05 00:15:00 发布

阅读量576

点赞数 10

文章标签：机器人机器学习人工智能深度学习

本文链接：https://blog.csdn.net/androidstarjack/article/details/148401957

版权

点击上方关注 “终端研发部”

设为“星标”，和你一起掌握更多数据库知识

VPP 利用了大量互联网视频数据进行训练，直接学习人类动作，减轻了对于高质量机器人真机数据的依赖，且可在不同人形机器人本体之间自如切换，这有望大大加速人形机器人的商业化落地。

在今年的 ICML 2025 中，VPP 从超 12000 篇投稿里脱颖而出，入选占比不到 2.6% 的 Spotlight 论文。

VPP 模型通过将视频扩散模型的泛化能力引入到通用机器人操作策略中，解决了以往机器人推理速度慢的问题。VPP 能够实时预测未来动作，从而极大提升机器人的策略泛化能力。值得注意的是，这一模型已在国际机器学习大会（ICML2025）上获得 Spotlight 认可，展现出其研究的前沿性和重要性。

VPP 基于 AIGC 视频扩散模型而来。如图所示，VPP 分成两阶段的学习框架，最终实现基于文本指令的视频动作生成。第一阶段利用视频扩散模型学习预测性视觉表征；第二阶段通过 Video Former 和 DiT 扩散策略进行动作学习。

VPP 的一大亮点在于其预测能力。以往机器人策略（例如：VLA 模型）往往只能根据当前观测进行动作学习，机器人策略需要先理解指令和场景，再执行。VPP 能够提前预知未来的场景，让机器人 “看着答案” 行动，大大增强泛化能力。通过该模型，机器人的执行速度能够实现 “更快一步”，在仅需150毫秒的推理时间内，预测频率达到6-10Hz，控制频率更是超过50Hz，极大提升了动作执行的流畅性。

而VLA技术更像是给AI装了驾校教练的嘴和F1赛车手的手：既能用视觉语言模型看懂红绿灯，又能用思维链推理解释"为啥要变道"——"亲，右侧车道有外卖小哥逆行，咱们怂一点"。理想汽车的实测显示，VLA能预测几十秒后的路况，比VLM模型的7秒"金鱼记忆"强出几个量级，遇到施工路段还会自动切换成"科目五：地狱级绕桩模式

核心差异：一个靠"脑补"，一个靠"唠嗑"