Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal LLM

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/137686848

本文介绍RAG Driver，一种检索增强的多模态大语言模型，用于生成高性能、可解释且可推广的自动驾驶解释。通过上下文学习和检索专家演示，该模型在驾驶动作解释、理由和控制信号预测上表现优越，并展示出出色的零样本通用性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是LLM系列文章，针对《RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal Large Language Model》的翻译。

摘要

由“黑盒”模型驱动的机器人需要提供我们可以信任的人类可以理解的解释。因此，可解释性在值得信赖的自主决策中发挥着关键作用，以提高最终用户的透明度和接受度，尤其是在复杂的自动驾驶中。多模态大语言模型（MLLMs）的最新进展表明，通过产生控制预测和自然语言解释，在增强驱动因素的可解释性方面具有很好的潜力。然而，由于昂贵的注释成本和不同数据集之间的显著领域差距，导致数据严重短缺，这使得开发一个强大且可推广的系统成为一项极具挑战性的任务。此外，MLLM昂贵的训练要求和尚未解决的灾难性遗忘问题进一步限制了其部署后的通用性。为了应对这些挑战，我们提出了RAG Driver，这是一种新颖的检索增强多模态大语言模型，利用上下文学习实现高性能、可解释和可推广的自动驾驶。通过检索到的专家演示，我们实证验证了RAG Driver在生成驾驶动作解释、理由和控制信号预测方面实现了最先进的性能。更重要的是，它在没有进一步训练的情况下，对看不见的环境表现出非凡的零样本通用能力。