点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群
扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 这篇文章干了啥?
端到端的自动驾驶,它涉及通过原始传感器输入学习神经规划器,被认为是实现完全自动驾驶的一个有前途的方向。尽管该领域取得了令人鼓舞的进展,但最近的研究揭示了模仿学习(IL)方法的多个脆弱性和局限性,特别是开环评估中固有的问题,如功能失调的度量指标和隐含的偏见。这是非常关键的,因为它无法保证安全性、效率、舒适性和遵守交通规则。为了解决这一主要限制,一些工作提出了结合闭环度量指标的方法,它通过确保机器学习规划器不仅模仿人类驾驶员,而且满足基本标准,来更有效地评估端到端自动驾驶。
因此,端到端规划理想上是一个多目标和多模态的任务。其中,多目标规划涉及满足来自开环和闭环设置的各种评估度量。在这种情况下,多模态表示每个度量都存在多个最优解。
现有的端到端方法通常试图通过后期处理来考虑闭环评估,这不够流畅,并且与完全端到端的流程相比可能会损失额外的信息。同时,基于规则的规划器在存在不完美的感知输入时表现不佳。这些不完美的输入会降低基于规则的规划器在闭环和开环度量下的性能,因为它们依赖于预测的感知而不是真实标签(GT)。
为了解决这些问题,我们提出了一种新颖的端到端自动驾驶框架,称为Hydra-MDP(具有多目标Hydra蒸馏的多模态规划)。Hydra-MDP基于一种新颖的教师-学生知识蒸馏(KD)架构。学生模型通过从人类和基于规则的教师那里进行KD学习,来学习适应各种评估指标的多样化轨迹候选。我们使用多头解码器实现了多目标Hydra蒸馏,从而有效地整合了来自专业教师的知识。Hydra-MDP还具有可扩展的KD架构,可以轻松地集成额外的教师。
在训练过程中,学生模型使用环境观测数据,而教师模型使用真实数据(GT)。这种设置允许教师模型生成更好的规划预测,帮助学生模型有效学习。通过使用环境观测数据训练学生模型,它变得擅长处理在测试期间无法获取GT感知的现实条件。
1. 论文信息
标题:Hydra-MDP: End-to-end Multimodal Planning with Multi-target Hydra-Distillation
作者:Zhenxin Li, Kailin Li, Shihao Wang, Shiyi Lan, Zhiding Yu, Yishen Ji, Zhiqi Li, Ziyue Zhu, Jan Kautz, Zuxuan Wu, Yu-Gang Jiang, Jose M. Alvarez
机构:NVIDIA、复旦大学、华东师范大学、北京理工大学、南京大学、南开大学
原文链接:https://arxiv.org/abs/2406.06978
代码链接:https://github.com/NVlabs/Hydra-MDP
2. 摘要
我们提出了Hydra-MDP,这是一种在教师-学生模型中采用多个教师的新范式。该方法利用基于人类和规则的教师的知识蒸馏来训练学生模型,该模型具有多头解码器,用于学习针对不同评估指标量身定制的多样化轨迹候选。通过基于规则的教师知识,Hydra-MDP以端到端的方式学习环境如何影响规划,而不是依赖于不可微分的后处理。该方法在Navsim挑战赛中获得了第一名,证明了在不同驾驶环境和条件下泛化能力的显著提高。代码将在https://github.com/NVlabs/Hydra-MDP上提供。
3. 效果展示
自动驾驶端到端规划分别有如下范例:
A. 单模态规划+单目标学习。在这种范式中,规划网络直接从传感器观测值回归出规划轨迹。真实感知可以作为辅助监督,但并不影响规划输出。
B. 多模态规划+单目标学习。
C. 多模态规划+多目标学习。我们提出这种范式,通过神经网络同时预测各种成本(如碰撞成本、可行驶区域符合性成本)。这是通过教师-学生蒸馏方式实现的,其中教师可以访问真实感知ˆP,但学生仅依赖传感器观测值O。
这个框架不受不可微分的后处理限制。在我们的实现中,它可以很容易地通过引入更多的成本函数或利用模仿相似性来以端到端的方式扩展。

4. 主要贡献
我们提出了一种通过多目标Hydra蒸馏实现端到端多模态规划的通用框架,使模型能够以可扩展的方式从基于规则的规划器和人类驾驶员中学习。
我们的方法在Navsim上的基于仿真的评估指标下达到了最先进的性能。
5. 基本原理是啥?
如图2所示,Hydra-MDP由两个网络组成:一个感知网络和一个轨迹解码器。
感知网络。我们的感知网络建立在官方挑战基线Transformer之上,该基线由图像主干、LiDAR主干以及用于3D目标检测和BEV分割的感知头组成。多个Transformer层连接来自两个主干各阶段的特征,从不同模态中提取有意义的信息。感知网络的最终输出包括环境令牌Fenv,这些令牌编码了从图像和LiDAR点云中获取的丰富语义信息。

轨迹解码器。我们构建了一个固定的规划词汇表来离散化连续的动作空间。为了构建词汇表,我们首先从原始的nuPlan数据库中随机抽取了700K条轨迹。每条轨迹Ti(i = 1,..., k)由40个时间戳的(x, y, heading)组成,对应于挑战中所需的10Hz频率和4秒的未来时间范围。规划词汇表Vk是通过700K条轨迹的K-means聚类中心形成的,其中k表示词汇表的大小。然后,Vk被嵌入为k个潜在查询,通过多层感知机(MLP)发送到转换器编码器层,并添加到自身状态E中:

为了将Fenv中的环境线索纳入考虑,我们利用转换器解码器:

使用日志回放轨迹 ˆT,我们实现了一个基于距离的交叉熵损失来模仿人类驾驶员:

其中Sim_i是V''_k的第i个softmax分数,y_i是通过日志回放与词汇表之间的L2距离产生的模仿目标。softmax应用于L2距离以产生概率分布:

这种模仿目标的直观想法是奖励接近人类驾驶行为的轨迹提案。
6. 实验结果
如表1所示,我们的结果突出了Hydra-MDP相对于基线的绝对优势。在探索不同的规划词汇表时,使用更大的词汇表V8192展示了不同方法上的改进。此外,非可微分的后处理相较于我们的框架带来的性能提升较少,而加权置信度则全面提升了性能。为了消除不同学习目标的影响,在早期实验中并未考虑连续指标EP(自我进展),我们尝试了整体PDM分数的蒸馏。然而,PDM分数的不规则分布导致了性能下降,这表明我们多目标学习范式的必要性。在Hydra-MDP-V8192-W-EP的最终版本中,EP的蒸馏可以改善相应的指标。

先前的文献表明,更大的主干网络仅对规划性能带来较小的改进。然而,我们进一步展示了我们的模型通过更大的主干网络实现的可扩展性。表2展示了使用ViT-L和V2-99作为图像主干的Hydra-MDP的三个最佳性能版本。对于最终提交,我们使用了这三个模型的集成子分数进行推断。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群
添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球
3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。

3D视觉相关硬件
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~