S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Model with Spatio-Temporal

在这里插入图片描述

文章主要内容总结

本文提出了一种基于多模态大语言模型(MLLM)的可扩展自监督自动驾驶运动规划框架 S4-Driver,旨在解决端到端自动驾驶中依赖人工标注和3D空间推理能力不足的问题。核心方法包括:

  1. 稀疏体表示(Sparse Volume Representation):将多视图、多帧图像的视觉信息聚合到3D空间,通过轻量级投影和门控机制动态选择关键区域,增强模型的3D时空推理能力,且无需微调预训练的视觉编码器。
  2. 分层规划与元决策(Hierarchical Planning with Meta-Decision):通过分解任务为高层语义决策(如加速、减速)和数值规划,简化MLLM的输出过程,提升规划稳定性。
  3. 大规模自监督训练:利用Waymo内部大规模未标注驾驶数据(WOMD-Planning-ADE基准,规模是nuScenes的100倍)进行预训练,验证了模型在数据规模上的可扩展性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值