本文研究了如何利用乘客的自然语言指令来引导自动驾驶车辆的轨迹规划，首次将细粒度的真实世界指令应用于端到端运动规划模型。

论文详情

Natural Language Instructions for Scene-Responsive Human-in-the-Loop Motion Planning in Autonomous Driving using Vision-Language-Action Models

2026-02-04 · 原文 · 翻译 · 2602.04184

本文研究了如何利用乘客的自然语言指令来引导自动驾驶车辆的轨迹规划，首次将细粒度的真实世界指令应用于端到端运动规划模型。论文的核心目标是探索并验证自由形式语言指令能否有效影响并改善由视觉-语言-动作模型生成的驾驶轨迹。研究解决了自动驾驶系统如何理解并执行场景相关、包含指代和约束的乘客指令这一关键问题。

4 分钟读完 6 张阅读卡论文作者为 Angel Martinez-Sanchez, Parth Roy, Ross Greer…

一眼看懂封面预览

本文研究了如何利用乘客的自然语言指令来引导自动驾驶车辆的轨迹规划，首次将细粒度的真实世界指令应用于端到端运动规划模型。

本文研究了如何利用乘客的自然语言指令来引导自动驾驶车辆的轨迹规划，首次将细粒度的真实世界指令应用于端到端运动规划模型。
论文的核心目标是探索并验证自由形式语言指令能否有效影响并改善由视觉-语言-动作模型生成的驾驶轨迹。
研究解决了自动驾驶系统如何理解并执行场景相关、包含指代和约束的乘客指令这一关键问题。

Card 01 研究单位

研究单位

论文作者为 Angel Martinez-Sanchez, Parth Roy, Ross Greer。原文HTML未明确列出作者所属机构名称。

Card 02 论文概述

论文概述

本文研究了如何利用乘客的自然语言指令来引导自动驾驶车辆的轨迹规划，首次将细粒度的真实世界指令应用于端到端运动规划模型。
论文的核心目标是探索并验证自由形式语言指令能否有效影响并改善由视觉-语言-动作模型生成的驾驶轨迹。
研究解决了自动驾驶系统如何理解并执行场景相关、包含指代和约束的乘客指令这一关键问题。

Card 03 核心贡献

核心贡献

首次将细粒度的乘客风格指令（来自doScenes数据集）应用于自动驾驶轨迹规划任务，并使用ADE指标评估其效果。
进行了全面的基线对比、指令层面分析及失败模式分析，揭示了指令措辞（长度、清晰度、指代性）对规划结果的影响。
发布了可复现的代码、提示词和评估脚本，为指令感知的自动驾驶规划研究建立了基准。

Card 04 方法描述

方法描述

基于OpenEMMA框架进行扩展，该框架是一个基于多模态大语言模型的端到端驾驶模型，通过视觉输入和链式思维推理生成轨迹。
创新点在于将doScenes数据集中的自然语言指令作为乘客提示注入到模型的视觉-语言接口中，使模型能够“听从”指令进行推理和规划。
方法保持了OpenEMMA原有架构不变，仅通过修改提示模板来引入语言条件，确保了实验变化的可控性和可解释性。

Card 05 数据集与资源

数据集与资源

主要使用了nuScenes数据集提供的真实驾驶场景数据（前视摄像头图像、车辆状态）。
使用了doScenes数据集，该数据集为nuScenes场景提供了3,924条自由形式的乘客自然语言指令标注。
采用LLaVA-1.6-Mistral-7B作为核心多模态大语言模型，模型参数量为7B。
训练与推理使用了NVIDIA RTX 4090 和 NVIDIA RTX 6000 Ada GPU，由于模型推理是主要瓶颈，未采用并行化，完整评估耗时约7天。

Card 06 评估与结果

评估与结果

在849个可执行的doScenes标注场景上进行了评估，采用平均位移误差（ADE） 作为核心指标。
关键实验结果表明：引入指令条件后，能有效防止基线模型产生极端异常预测，使整体平均ADE降低了98.7%。
在过滤掉异常场景后，精心设计的指令提示仍能使ADE改善达5.1%。
分析发现，包含动态对象指代（如“跟随黄色汽车”）和中等长度（9-12词）的指令效果最佳，能显著纠正如驶入人行横道或错误转弯等危险规划。