文章主要内容总结
本文提出了一种基于多模态大语言模型(MLLM)的可扩展自监督自动驾驶运动规划框架 S4-Driver,旨在解决端到端自动驾驶中依赖人工标注和3D空间推理能力不足的问题。核心方法包括:
- 稀疏体表示(Sparse Volume Representation):将多视图、多帧图像的视觉信息聚合到3D空间,通过轻量级投影和门控机制动态选择关键区域,增强模型的3D时空推理能力,且无需微调预训练的视觉编码器。
- 分层规划与元决策(Hierarchical Planning with Meta-Decision):通过分解任务为高层语义决策(如加速、减速)和数值规划,简化MLLM的输出过程,提升规划稳定性。
- 大规模自监督训练:利用Waymo内部大规模未标注驾驶数据(WOMD-Planning-ADE基准,规模是nuScenes的100倍)进行预训练,验证了模型在数据规模上的可扩展性。