DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving

论文详情

DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving

2025-05-26 · 原文 · 翻译 · 2505.19381

针对端到端自动驾驶中存在的 BEV 计算昂贵、动作多样性不足以及复杂场景决策次优的问题，提出了 DiffVLA 框架。结合了 Vision-Language Model (VLM) 进行高级决策指导，以及基于扩散模型的规划器来处理多模态驾驶行为。引入混合稀疏-密集感知模块，同时利用显式实例信息和隐式 BEV 特征来增强规划器的场景理解能力。

5 分钟读完 6 张阅读卡 RIX, Bosch

一眼看懂封面预览

针对端到端自动驾驶中存在的 BEV 计算昂贵、动作多样性不足以及复杂场景决策次优的问题，提出了 DiffVLA 框架。

针对端到端自动驾驶中存在的 BEV 计算昂贵、动作多样性不足以及复杂场景决策次优的问题，提出了 DiffVLA 框架。
结合了 Vision-Language Model (VLM) 进行高级决策指导，以及基于扩散模型的规划器来处理多模态驾驶行为。
引入混合稀疏-密集感知模块，同时利用显式实例信息和隐式 BEV 特征来增强规划器的场景理解能力。

Card 01 研究单位

研究单位

RIX, Bosch
AIR, Tsinghua University
Shanghai University
Shanghai Jiao Tong University
Southeast University

Card 02 论文概述

论文概述

针对端到端自动驾驶中存在的 BEV 计算昂贵、动作多样性不足以及复杂场景决策次优的问题，提出了 DiffVLA 框架。
结合了 Vision-Language Model (VLM) 进行高级决策指导，以及基于扩散模型的规划器来处理多模态驾驶行为。
引入混合稀疏-密集感知模块，同时利用显式实例信息和隐式 BEV 特征来增强规划器的场景理解能力。

Card 03 核心贡献

核心贡献

提出了 DiffVLA 框架，融合了 VLM 指导、混合感知和扩散规划三大模块，实现了高性能的端到端自动驾驶。
设计了 VLA Guidance Module，利用 VLM (Senna-VLM) 处理多视图图像和导航指令，生成高级驾驶命令辅助规划。
构建了 Hybrid Perception Module，结合稀疏感知（3D检测、地图生成）和密集感知（BEV特征），提供全面的场景表示。
开发了基于 Truncated Diffusion Policy 的规划模块，利用多模态锚点和缩短的扩散时间表，高效生成多模态轨迹。

Card 04 方法描述

方法描述

VLM 模块：基于 Senna-VLM 框架，使用 ViT-L/14 作为视觉编码器，Vicuna-v1.5-7B 作为 LLM，输出横向和纵向控制命令。
感知模块：分为稀疏分支和密集分支。稀疏分支输出 3D 边界框和地图向量，密集分支构建 BEV 特征空间 ($128 \times 128$)，骨干网络采用 VoV-99。
规划模块：通过 K-means 聚类构建轨迹词汇表，使用高斯噪声生成锚点。扩散模型以显式和隐式感知结果为条件，预测轨迹及其得分。
后处理：针对高速场景，对预测轨迹进行 2% 减速 处理以降低碰撞率。

Card 05 数据集与资源

数据集与资源

使用 NAVSIM v2 数据集进行训练和评估，包含真实的反应式背景交通参与者。
模型训练分为两阶段，VLM 模块参数量约为 7B (Vicuna-v1.5-7B)。
训练使用了 AdamW 优化器和余弦学习率衰减策略，Batch Size 最大为 256。

Card 06 评估与结果

评估与结果

在 Autonomous Grand Challenge 2025 (Navsim v2) 竞赛的私有测试集上进行评估。
主要评估指标为 PDMS (extended_pdm_score_combined)，以及碰撞率、车道保持、红绿灯合规性等子指标。
最终模型取得了 45.0 PDMS 的成绩，展示了在复杂闭环场景下的优越性能。