WAM-Flow: Parallel Coarse-to-Fine Motion Planning via Discrete Flow Matching for Autonomous Driving

一眼看懂封面预览

提出WAM-Flow，一种将自动驾驶中的自车轨迹规划建模为结构化词元空间上离散流匹配的视觉-语言-行动模型。

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

提出首个将离散流匹配范式应用于端到端自动驾驶的视觉-语言-行动模型，支持并行的从粗到精轨迹规划。
设计了度量对齐数值词元器，通过三元组边界排序损失学习嵌入，使词元空间的几何关系能反映连续标量的度量差异。
提出了模拟器引导的组相对策略优化，将安全性、自车进度和舒适度等多目标奖励融入强化学习，优化闭环性能并保持并行生成能力。
设计了一个多阶段自适应训练方案，将预训练的自回归骨干模型（Janus-1.5B）转换为非因果流模型，并通过大规模道路场景视觉问答数据增强了模型的道路场景理解能力。
在NAVSIM基准测试上取得了最先进的性能，证明了DFM在自动驾驶VLA中的有效性和高效性。

Card 04 方法描述

核心方法：将自车未来轨迹规划建模为离散流匹配，在结构化词元空间上通过连续时间马尔可夫链进行概率传输。
创新点1：度量对齐数值词元器，通过一个共享码本离散化连续数值，并使用三元组排序损失确保嵌入距离反映标量差异，为数值回归提供几何感知能力。
创新点2：几何感知的流匹配目标，定义了基于距离度量（如数值词元器诱导的距离）的条件概率路径，引导模型向目标分布转移。
创新点3：模拟器引导的GRPO，设计了复合奖励函数（包含安全惩罚和性能目标），并使用组相对策略优化对经过监督训练的模型进行对齐，提升闭环驾驶的可靠性和性能。
训练流程：包含四个阶段——数值词元器训练、大规模VQA域自适应预训练、nuPlan数据监督微调、以及NAVSIM模拟器上的GRPO强化学习。

Card 05 数据集与资源

使用的数据集：nuPlan（用于监督微调）、NAVSIM（v1和v2，用于强化学习和评估）、LLaVA-v1.5和RecogDrive的大规模视觉问答数据（用于域自适应预训练）。
模型规模：基于Janus-1.5B视觉语言模型骨干，扩展了包含20001个数值词元的词表，总参数量约为15亿。
训练资源：论文未明确说明具体GPU/TPU配置。

Card 06 评估与结果

评估环境与基准：主要在NAVSIM v1和NAVSIM v2仿真基准上进行闭环性能评估，并与现有最先进的端到端和VLA方法进行对比。
主要评估指标：PDMS（规划驾驶指标得分，NAVSIM v1核心指标）、EPDMS（扩展规划驾驶指标得分，NAVSIM v2核心指标），以及各项子指标（NC: 无碰撞, DAC: 可驾驶区域合规, TTC: 碰撞时间, EP: 自车进度, Comf.: 舒适度等）。
关键实验结果：

- 在NAVSIM v1上，WAM-Flow使用5步去噪达到90.3 PDMS，优于所有自回归和基于扩散的VLA基线模型（如AutoVLA的89.1，RecogDrive的89.6）。

- 仅用1步推理即可达到89.1 PDMS，在精度和效率间取得良好平衡，且推理速度比自回归的Janus基线快3倍。

- 在NAVSIM v2上，取得84.7 EPDMS，同样达到最先进水平。

- 消融实验验证了数值词元器、度量对齐损失、域自适应预训练和GRPO各组件对性能提升的贡献。