一眼看懂
封面预览
提出WAM-Flow,一种将自动驾驶中的自车轨迹规划建模为结构化词元空间上离散流匹配的视觉-语言-行动模型。
- 提出WAM-Flow,一种将自动驾驶中的自车轨迹规划建模为结构化词元空间上离散流匹配的视觉-语言-行动模型。
- 通过完全并行、双向去噪实现从粗到精的运动规划,提供了可调节的计算-精度权衡,解决了现有自回归或扩散模型在推理效率、可控性等方面的不足。
- 提出首个将离散流匹配范式应用于端到端自动驾驶的视觉-语言-行动模型,支持并行的从粗到精轨迹规划。
Card 01
研究单位
研究单位
- Fudan University(复旦大学)
- Yinwang Intelligent Technology Co., Ltd(隐望智能科技有限公司)
Card 02
论文概述
论文概述
- 提出WAM-Flow,一种将自动驾驶中的自车轨迹规划建模为结构化词元空间上离散流匹配的视觉-语言-行动模型。
- 通过完全并行、双向去噪实现从粗到精的运动规划,提供了可调节的计算-精度权衡,解决了现有自回归或扩散模型在推理效率、可控性等方面的不足。
Card 03
核心贡献
核心贡献
- 提出首个将离散流匹配范式应用于端到端自动驾驶的视觉-语言-行动模型,支持并行的从粗到精轨迹规划。
- 设计了度量对齐数值词元器,通过三元组边界排序损失学习嵌入,使词元空间的几何关系能反映连续标量的度量差异。
- 提出了模拟器引导的组相对策略优化,将安全性、自车进度和舒适度等多目标奖励融入强化学习,优化闭环性能并保持并行生成能力。
- 设计了一个多阶段自适应训练方案,将预训练的自回归骨干模型(Janus-1.5B)转换为非因果流模型,并通过大规模道路场景视觉问答数据增强了模型的道路场景理解能力。
- 在NAVSIM基准测试上取得了最先进的性能,证明了DFM在自动驾驶VLA中的有效性和高效性。
Card 04
方法描述
方法描述
- 核心方法:将自车未来轨迹规划建模为离散流匹配,在结构化词元空间上通过连续时间马尔可夫链进行概率传输。
- 创新点1:度量对齐数值词元器,通过一个共享码本离散化连续数值,并使用三元组排序损失确保嵌入距离反映标量差异,为数值回归提供几何感知能力。
- 创新点2:几何感知的流匹配目标,定义了基于距离度量(如数值词元器诱导的距离)的条件概率路径,引导模型向目标分布转移。
- 创新点3:模拟器引导的GRPO,设计了复合奖励函数(包含安全惩罚和性能目标),并使用组相对策略优化对经过监督训练的模型进行对齐,提升闭环驾驶的可靠性和性能。
- 训练流程:包含四个阶段——数值词元器训练、大规模VQA域自适应预训练、nuPlan数据监督微调、以及NAVSIM模拟器上的GRPO强化学习。
Card 05
数据集与资源
数据集与资源
- 使用的数据集:nuPlan(用于监督微调)、NAVSIM(v1和v2,用于强化学习和评估)、LLaVA-v1.5和RecogDrive的大规模视觉问答数据(用于域自适应预训练)。
- 模型规模:基于Janus-1.5B视觉语言模型骨干,扩展了包含20001个数值词元的词表,总参数量约为15亿。
- 训练资源:论文未明确说明具体GPU/TPU配置。
Card 06
评估与结果
评估与结果
- 评估环境与基准:主要在NAVSIM v1和NAVSIM v2仿真基准上进行闭环性能评估,并与现有最先进的端到端和VLA方法进行对比。
- 主要评估指标:PDMS(规划驾驶指标得分,NAVSIM v1核心指标)、EPDMS(扩展规划驾驶指标得分,NAVSIM v2核心指标),以及各项子指标(NC: 无碰撞, DAC: 可驾驶区域合规, TTC: 碰撞时间, EP: 自车进度, Comf.: 舒适度等)。
- 关键实验结果:
- 在NAVSIM v1上,WAM-Flow使用5步去噪达到90.3 PDMS,优于所有自回归和基于扩散的VLA基线模型(如AutoVLA的89.1,RecogDrive的89.6)。
- 仅用1步推理即可达到89.1 PDMS,在精度和效率间取得良好平衡,且推理速度比自回归的Janus基线快3倍。
- 在NAVSIM v2上,取得84.7 EPDMS,同样达到最先进水平。
- 消融实验验证了数值词元器、度量对齐损失、域自适应预训练和GRPO各组件对性能提升的贡献。