CoVLA:自动驾驶VLA数据集~

作者 | wnwn 编辑 | 自动驾驶之心

 原文链接:https://zhuanlan.zhihu.com/p/1889278018540774029 

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『VLA』技术交流群

本文只做学术分享,如有侵权,联系删文

原文:CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving

针对VLM的自动驾驶领域的数据集数据量较少,本文采集了80个小时的驾驶视频构建了CpVLA数据集,包含详尽的传感器信息和全自动生成的语言文本描述。

文章以caption+轨迹 作为数据集的构成要件,例子如下

数据集依然存在不均衡的问题:自车静止和方向盘0度占据了数据集的绝大多数,数据不均衡现象十分严重

文章还提出了CoVLA-Agent架构,基于ViT和Llama2构建多模态大模型,mlp作为视觉连接器

场景描述用LLM直接出,轨迹把最后10个额外的token连接MLP输出

MLP单独训练ADE和FDE损失

测试了CoVLA的效果,可视化看起来使用GT caption的轨迹(蓝线)比使用预测caption的轨迹(红线)离GT(绿线)更远,说明好的caption对预测有辅助作用

文章统计了每个关键字对应的指标,发现以下关键字的轨迹误差较大,减速、左转、加速、弯道、右转,符合直觉

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程

端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值