提出 MVLAD-AD 框架，解决端到端自动驾驶中推理延迟、动作精度和可解释性三大挑战

论文详情

Efficient and Explainable End-to-End Autonomous Driving via Masked Vision-Language-Action Diffusion

2026-02-24 · 原文 · 翻译 · 2602.20577

提出 MVLAD-AD 框架，解决端到端自动驾驶中推理延迟、动作精度和可解释性三大挑战针对现有自回归模型逐token生成速度慢、扩散模型使用冗余语言token导致表示效率低的问题目标：在保持语义可解释性的同时实现高效、低延迟的规划推理

5 分钟读完 6 张阅读卡 Purdue University (普渡大学)

一眼看懂封面预览

提出 MVLAD-AD 框架，解决端到端自动驾驶中推理延迟、动作精度和可解释性三大挑战

提出 MVLAD-AD 框架，解决端到端自动驾驶中推理延迟、动作精度和可解释性三大挑战
针对现有自回归模型逐token生成速度慢、扩散模型使用冗余语言token导致表示效率低的问题
目标：在保持语义可解释性的同时实现高效、低延迟的规划推理

Card 01 研究单位

研究单位

Purdue University (普渡大学)

- 物理人工智能研究所 (IPAI)

- 工程学院

- 计算机科学系

Card 02 论文概述

论文概述

提出 MVLAD-AD 框架，解决端到端自动驾驶中推理延迟、动作精度和可解释性三大挑战
针对现有自回归模型逐token生成速度慢、扩散模型使用冗余语言token导致表示效率低的问题
目标：在保持语义可解释性的同时实现高效、低延迟的规划推理

Card 03 核心贡献

核心贡献

提出首个端到端掩码VLA扩散框架 MVLAD-AD，同时实现高效规划和语义推理
离散动作标记化：将连续轨迹映射到 N=256 个紧凑的动作token，构建kinematically feasible的codebook
几何感知嵌入学习：通过软分配、重建损失、几何一致性损失和对比聚类损失确保嵌入空间近似物理几何度量
动作优先解码策略：在推理时优先解码轨迹token，显著降低规划延迟
在 nuScenes 上实现最优规划精度（平均 L2 误差 1.28m），推理速度比 ViLaD 快 1.6 倍

Card 04 方法描述

方法描述

离散动作标记化：使用K-Means从真实驾驶数据中聚类出 N=256 个代表性路点，构建紧凑codebook
几何感知嵌入学习：通过温度缩放的软分配机制，结合几何一致性损失和对比聚类损失学习嵌入空间
统一掩码VLA扩散：将视觉、指令、动作和推理token统一为单一序列进行掩码生成建模
两阶段训练：第一阶段动作中心预热（仅训练动作token），第二阶段联合VLA微调（动作+推理）
动作优先解码：在每步扩散迭代中仅从动作token位置选择高置信度token先解码

Card 05 数据集与资源

数据集与资源

数据集：nuScenes（规划）、Nu-X（驾驶解释）、nuScenes-QA（视觉问答）
模型基座：LLaDA 预训练权重，采用 LoRA 微调（rank=256）
训练资源：4块 NVIDIA H100 GPU，bfloat16 精度，batch size 32，每阶段8个epoch，总计约9小时
评估环境：单块 NVIDIA A100 GPU

Card 06 评估与结果

评估与结果

规划性能：nuScenes 平均 L2 误差 1.28m（1s: 0.70m, 2s: 1.31m, 3s: 2.34m），失败率 0.00%
推理效率：1.72s，比 ViLaD 快 1.6×，比 LLaVA-1.6 快 1.84×
推理能力：Nu-X 上 BLEU-4: 13.0, METEOR: 36.8, ROUGE-L: 37.3；nuScenes-QA 准确率 55.7%
消融实验：N=256 为最优codebook大小；几何感知嵌入使 L2 误差从 2.39m 降至 1.28m；路点表示优于位移表示