一眼看懂
封面预览
针对端到端自动驾驶中存在的 BEV 计算昂贵、动作多样性不足以及复杂场景决策次优的问题,提出了 DiffVLA 框架。
- 针对端到端自动驾驶中存在的 BEV 计算昂贵、动作多样性不足以及复杂场景决策次优的问题,提出了 DiffVLA 框架。
- 结合了 Vision-Language Model (VLM) 进行高级决策指导,以及基于扩散模型的规划器来处理多模态驾驶行为。
- 引入混合稀疏-密集感知模块,同时利用显式实例信息和隐式 BEV 特征来增强规划器的场景理解能力。
Card 01
研究单位
研究单位
- RIX, Bosch
- AIR, Tsinghua University
- Shanghai University
- Shanghai Jiao Tong University
- Southeast University
Card 02
论文概述
论文概述
- 针对端到端自动驾驶中存在的 BEV 计算昂贵、动作多样性不足以及复杂场景决策次优的问题,提出了 DiffVLA 框架。
- 结合了 Vision-Language Model (VLM) 进行高级决策指导,以及基于扩散模型的规划器来处理多模态驾驶行为。
- 引入混合稀疏-密集感知模块,同时利用显式实例信息和隐式 BEV 特征来增强规划器的场景理解能力。
Card 03
核心贡献
核心贡献
- 提出了 DiffVLA 框架,融合了 VLM 指导、混合感知和扩散规划三大模块,实现了高性能的端到端自动驾驶。
- 设计了 VLA Guidance Module,利用 VLM (Senna-VLM) 处理多视图图像和导航指令,生成高级驾驶命令辅助规划。
- 构建了 Hybrid Perception Module,结合稀疏感知(3D检测、地图生成)和密集感知(BEV特征),提供全面的场景表示。
- 开发了基于 Truncated Diffusion Policy 的规划模块,利用多模态锚点和缩短的扩散时间表,高效生成多模态轨迹。
Card 04
方法描述
方法描述
- VLM 模块:基于 Senna-VLM 框架,使用 ViT-L/14 作为视觉编码器,Vicuna-v1.5-7B 作为 LLM,输出横向和纵向控制命令。
- 感知模块:分为稀疏分支和密集分支。稀疏分支输出 3D 边界框和地图向量,密集分支构建 BEV 特征空间 ($128 \times 128$),骨干网络采用 VoV-99。
- 规划模块:通过 K-means 聚类构建轨迹词汇表,使用高斯噪声生成锚点。扩散模型以显式和隐式感知结果为条件,预测轨迹及其得分。
- 后处理:针对高速场景,对预测轨迹进行 2% 减速 处理以降低碰撞率。
Card 05
数据集与资源
数据集与资源
- 使用 NAVSIM v2 数据集进行训练和评估,包含真实的反应式背景交通参与者。
- 模型训练分为两阶段,VLM 模块参数量约为 7B (Vicuna-v1.5-7B)。
- 训练使用了 AdamW 优化器和余弦学习率衰减策略,Batch Size 最大为 256。
Card 06
评估与结果
评估与结果
- 在 Autonomous Grand Challenge 2025 (Navsim v2) 竞赛的私有测试集上进行评估。
- 主要评估指标为 PDMS (extended_pdm_score_combined),以及碰撞率、车道保持、红绿灯合规性等子指标。
- 最终模型取得了 45.0 PDMS 的成绩,展示了在复杂闭环场景下的优越性能。