自动驾驶---学术论文的常客:nuScenes 数据集
nuScenes 数据集在大模型训练中应用广泛,在很多CVPR或者其它论文中经常能看到使用nuScenes 数据集达到SOTA水平。SOTA 水平即 “State of the Art” 水平,指的是在某一技术领域或特定任务中,当前所能达到的最高水平或最先进的状态。
1 前言
nuScenes 数据集在大模型训练中应用广泛,在很多CVPR或者其它论文中经常能看到使用nuScenes 数据集达到SOTA水平。SOTA 水平即 “State of the Art” 水平,指的是在某一技术领域或特定任务中,当前所能达到的最高水平或最先进的状态。
- 在人工智能领域:SOTA 通常用来描述在某个任务上表现最优的算法或模型。比如在图像识别任务中,具有最高准确率的卷积神经网络;在自然语言处理中,理解和生成能力最强的语言模型,像 GPT 系列等,都代表了各自领域的 SOTA 水平。
- 在自动驾驶领域:如 nuScenes 数据集相关研究中,能在该数据集上实现最精准的环境感知、目标检测与跟踪等任务的算法或模型,就达到了该领域基于 nuScenes 数据集研究的 SOTA 水平。举例来说,如果某自动驾驶环境感知算法在 nuScenes 数据集上的目标检测准确率、识别速度等综合指标优于其他所有已发表的算法,那它就处于 SOTA 水平。
本篇主要介绍nuScenes 数据集的来源和下载方式,下一篇将会介绍如何使用nuScenes 数据集。
2 nuScenes 数据集
由 Motional 团队(前身为 nuTonomy)开发的自动驾驶公共大规模数据集。Motional 致力于通过安全、可靠、可普及的无人驾驶技术重塑出行方式。通过向公众开放部分数据,我们旨在支持计算机视觉和自动驾驶领域的学术研究。
(1)数据采集与场景设计
- 场景规模:在波士顿和新加坡两个以密集交通和复杂驾驶环境著称的城市,采集了 1000 个驾驶场景。
- 场景特征:每个场景时长 20 秒,人工筛选以覆盖多样化的驾驶操作、交通状况和突发行为。数据集的复杂性将推动城市环境中多目标安全驾驶算法的发展。
- 跨地域研究:跨大洲的数据采集支持研究计算机视觉算法在不同地理位置、天气条件、车辆类型、植被特征、道路标识及左右舵交通规则下的泛化能力。
(2)标注与技术参数
- 3D 目标标注:为 23 类目标提供 2Hz 频率的高精度 3D 边界框标注,覆盖全数据集。
- 属性标注:包含目标可见性、行为状态和姿态等细粒度属性信息。
- 多模态数据:
- 传感器套件:配备 6 个摄像头、1 个激光雷达、5 个毫米波雷达、GPS 和 IMU。
- 数据量:140 万张相机图像、39 万次激光雷达扫描、140 万次毫米波雷达扫描,以及 4 万关键帧中的 140 万个目标边界框。
(3)挑战与扩展
- CVPR 挑战赛:作为 2019 年 CVPR 自动驾驶研讨会的一部分,举办 nuScenes 3D 检测挑战赛。
- 语义分割扩展:2020 年 7 月发布 nuScenes-lidarseg,为 4 万帧点云的 140 亿个激光雷达点提供 32 类语义标签(激光雷达语义分割)。
(4)数据集特性对比
- 对比 KITTI:标注数量是 KITTI 的 7 倍,首次完整开放自动驾驶传感器套件数据。
- 多传感器融合:区别于 Cityscapes 等纯视觉数据集,专注于多模态传感器融合研究。
3 nuScenes 数据集特点及应用
(1)nuScenes 数据集优势
- 多模态数据融合优势:该数据集集成了摄像头、激光雷达、毫米波雷达等多传感器数据,能让大模型学习到不同传感器数据的特点和互补信息,提升模型对复杂场景的感知和理解能力。如 OpenEMMA 项目就利用 nuScenes 数据集的多模态数据,结合多模态大语言模型实现端到端的自动驾驶,通过链式推理过程,显著提高了模型的推理能力和适应性。
- 场景丰富多样优势:涵盖了城市、住宅区、郊区、工业区等场景,以及白天、黑夜、晴天、雨天、多云等不同时段和天气状况,可使训练出的大模型具有更强的泛化能力,能适应各种实际驾驶场景。有鹿团队使用 nuScenes 数据集训练模型,在机器人业务场景下,可对小目标进行精确识别和定位。
- 标注信息丰富优势:提供二维、三维物体标注、点云分割、高精地图等标注信息,可支持大模型进行目标检测、跟踪、语义分割、视觉问答等多种任务的训练,让模型学习到更丰富的语义信息和场景知识。
(2)应用案例
- 有鹿团队:将点云感知问题转化为自然语言序列识别问题,借助语言模型强大的建模能力,有效融合原始点云信息和先验语义线索,在 nuScenes 点云语义分割排行榜中刷新了最好成绩。
- OpenEMMA:利用 nuScenes 数据集进行验证,提出的端到端多模态自动驾驶框架 OpenEMMA,在端到端轨迹规划任务的多个基准测试中,在 L2 范数误差和失败率方面均优于零样本基线,其集成的经过微调的 Yolo 模型,在 3D 物体检测任务中显著提高了检测精度。
- SimpleLLM4AD:采用专为自动驾驶模型量身定制的 DriveLM-nuScenes 数据集进行模型的微调和性能评估,在自动驾驶的多项任务中均展现出了卓越的性能,在与现有自动驾驶模型的对比测试中,在多个评估维度上均取得了显著的优势。
- VLM-AD:通过将 VLM 的驾驶推理知识提炼到端到端自动驾驶的 Pipeline 中,在 nuScenes 数据集上显著提高了规划准确性并减少了碰撞率。
4 数据采集
4.1 场景规划
- 采集规模:在波士顿和新加坡两地共采集约 15 小时驾驶数据,完整数据集包含波士顿海港区(Boston Seaport)和新加坡纬壹科技城(One North)、女皇镇(Queenstown)、荷兰村(Holland Village)等区域的数据。
- 路线设计:驾驶路线经过精心筛选,以覆盖高难度场景,包括复杂路口、狭窄街道和动态交通流等。
- 多样性策略:
- 时空覆盖:涵盖不同时间段(白天 / 夜晚)、季节和天气条件(晴天 / 雨天)。
- 类别平衡:通过增加稀有类别(如自行车、行人)的场景比例,优化数据集中的类别频率分布。
- 场景筛选:基于上述标准人工挑选 1000 个 20 秒时长的场景,由专业标注团队进行高精度标注。标注指南详见开发工具包仓库。
4.2 车辆配置
使用两辆传感器布局相同的雷诺佐伊(Renault Zoe)汽车,分别在波士顿和新加坡进行数据采集。这些数据来自于一个研究平台,并不代表 Motional 产品所采用的配置。传感器的安装位置请参考上图。我们将公布以下这些传感器所采集的数据:
- 相机:6 台彩色相机,分辨率为 1600×900,采用 JPEG 格式压缩,采样频率 12Hz。
- 激光雷达:采样频率 20Hz,360° 水平 FOV,垂直 FOV 为 - 30°-10°,探测距离 70m,探测精度 2cm,每秒 140 万点云。
- 毫米波雷达:5 个毫米波雷达为 77GHz,FMCW 调频,13Hz 采样频率,探测距离 250m,速度精度 ±0.1km/h。
- GPS 和 IMU:20mm 的 RTK 定位精度,1000Hz 采样频率。
4.3 传感器校准
为了获得高质量的多传感器数据集,校准每个传感器的外参和内参至关重要。我们以自车坐标系(即车辆后轴的中点)为参照来表示外参坐标。以下是最关键的几个步骤:
(1)激光雷达外参校准:
使用激光标线器精确测量激光雷达相对于自车坐标系的相对位置。
(2)摄像头外参校准:
在摄像头和激光雷达传感器前方放置一个立方体形状的校准目标物。该校准目标物由三个带有已知图案的正交平面组成。在检测到这些图案后,我们通过对齐校准目标物的平面来计算从摄像头到激光雷达的转换矩阵。有了上述计算出的激光雷达相对于自车坐标系的转换关系,我们就能进一步计算出摄像头相对于自车坐标系的转换关系,进而得到外参参数。
(3)毫米波雷达外参校准:
将毫米波雷达水平安装。然后在城市环境中行驶来收集毫米波雷达的测量数据。在对运动物体的雷达回波进行滤波后,我们使用暴力搜索法来校准偏航角,以最小化静态物体的补偿距离变化率。
(4)摄像头内参校准:
使用一块带有已知图案的校准目标板来推断摄像头的内参和畸变参数。
5 数据下载
2019 年 7 月,发布了包含 11 个语义图层(人行横道、人行道、交通信号灯、停车线、车道等)的地图扩展包。要安装此扩展包,请按照以下说明操作。有关地图扩展包不同版本的更多信息,请查看同一页面。语义地图以矢量格式提供,并在所有数据集划分(迷你数据集、训练验证集、测试集)中使用。此外,还提供了语义先验信息(可行驶路面 + 人行道)和激光雷达底图的位图。
2019 年 3 月,发布了包含 1000 个场景的完整 nuScenes 数据集。由于该数据集规模庞大,我们分别提供了迷你数据集、训练验证集和测试集。迷你数据集(10 个场景)是训练验证集的一个子集,可用于在无需下载整个数据集的情况下对数据进行探索。训练验证集(700 + 150 个场景)被打包成 10 个不同的压缩文件,每个压缩文件包含 85 个场景。测试集(150 个场景)用于竞赛,且不附带目标物体的标注信息。另外,也可以仅下载选定的模态数据(摄像头数据、激光雷达数据、雷达数据),或者仅下载关键帧数据。元数据是单独提供的,其中包括标注信息、自车姿态信息、校准信息、地图信息以及日志信息。

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)