返回列表 VLA / Vision-Language-Action 每日论文卡
dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning
论文提出了 dVLM-AD,一个基于扩散模型的视觉-语言模型,用于端到端自动驾驶,旨在统一感知、结构化推理和低层规划。

论文详情

dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning

2025-12-04 · 原文 · 翻译 · 2512.04459

论文提出了 dVLM-AD,一个基于扩散模型的视觉-语言模型,用于端到端自动驾驶,旨在统一感知、结构化推理和低层规划。 该模型旨在解决现有自回归(AR)模型在自动驾驶中面临的两个核心问题:推理-动作不一致 和 生成不可控。 通过将生成过程重构为迭代去噪,并利用模板锚定的约束填充,实现了更具可控性和全局一致性的推理与动作生成。

5 分钟读完 6 张阅读卡 University of Wisconsin-Madison
一眼看懂 封面预览

论文提出了 dVLM-AD,一个基于扩散模型的视觉-语言模型,用于端到端自动驾驶,旨在统一感知、结构化推理和低层规划。

  • 论文提出了 dVLM-AD,一个基于扩散模型的视觉-语言模型,用于端到端自动驾驶,旨在统一感知、结构化推理和低层规划。
  • 该模型旨在解决现有自回归(AR)模型在自动驾驶中面临的两个核心问题:推理-动作不一致 和 生成不可控。
  • 通过将生成过程重构为迭代去噪,并利用模板锚定的约束填充,实现了更具可控性和全局一致性的推理与动作生成。
Card 01 研究单位

研究单位

  • University of Wisconsin-Madison
  • NVIDIA
  • Stanford University
  • Johns Hopkins University
Card 02 论文概述

论文概述

  • 论文提出了 dVLM-AD,一个基于扩散模型的视觉-语言模型,用于端到端自动驾驶,旨在统一感知、结构化推理和低层规划。
  • 该模型旨在解决现有自回归(AR)模型在自动驾驶中面临的两个核心问题:推理-动作不一致生成不可控
  • 通过将生成过程重构为迭代去噪,并利用模板锚定的约束填充,实现了更具可控性和全局一致性的推理与动作生成。
Card 03 核心贡献

核心贡献

  • 提出了 dVLM-AD 框架,这是首个将离散扩散视觉-语言模型应用于自动驾驶领域并进行可控推理的工作。
  • 设计了 动态去噪策略,通过引入“归约令牌”解决了固定长度槽位带来的“长度匹配偏差”问题,实现了变长内容的可控生成。
  • 构建了包含 145k 驾驶相关QA对和 53k 结构化推理-动作标注的训练数据集,以增强模型在驾驶领域的理解和规划能力。
  • nuScenesWOD-E2E 基准上进行了广泛实验,证明了dVLM-AD在推理-动作一致性和规划性能上优于自回归基线模型。
Card 04 方法描述

方法描述

  • 模型架构基于 LLaDA-V,由LLM主干、视觉编码器和多模态投影器组成,采用文本航点作为动作表示。
  • 核心创新在于将自由形式生成转换为 模板锚定的约束填充。通过初始化带有可见锚点的部分掩码序列,强制生成过程遵循结构化模板(如:物体检测->解释->未来行为->轨迹)。
  • 为了解决固定模板槽位长度不匹配的问题,提出了 动态去噪策略。该策略允许模型在去噪过程中,当对“归约令牌”的置信度超过阈值时,提前终止当前槽位的生成并修剪后续掩码令牌。
Card 05 数据集与资源

数据集与资源

  • 使用的数据集:nuScenesWaymo Open Dataset End-to-End (WOD-E2E)
  • 训练数据:

- 第一阶段:来自多个开源数据集的 145k 驾驶相关QA对,用于领域对齐。

- 第二阶段:为nuScenes和WOD-E2E分别构建了 23k30k 条结构化推理-动作标注数据,用于监督微调。

  • 模型基础:基于 LLaDA-V (使用 LLaDA-8B-Instruct 作为LLM主干)。
Card 06 评估与结果

评估与结果

  • 评估环境:在 nuScenesWOD-E2E 数据集上进行了开环评估。
  • 主要评估指标:

- 规划性能:L2误差、平均位移误差(ADE)、评估者反馈分数(RFS)。

- 一致性:物体-解释一致性、行为-轨迹一致性。

  • 关键实验结果:

- 一致性:dVLM-AD的物体-解释一致性接近 99%,行为-轨迹一致性(平均)达到 87.8% (nuScenes) 和 80.1% (WOD-E2E),显著优于自回归基线。

- 规划性能:在WOD-E2E长尾场景测试集上,dVLM-AD取得了最高的RFS (7.633) 和最低的ADE@3s (1.285),超越了使用更强骨干和更多训练数据的AutoVLA。

- 鲁棒性:在对抗性的提示扰动(如顺序扰动、轨迹遗漏)实验中,dVLM-AD的性能几乎不受影响,而自回归模型的性能则严重下降,证明了其生成的高度可控性和鲁棒性。