返回列表 VLA / Vision-Language-Action 每日论文卡

DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving

论文详情

DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving

2025-05-26 · 原文 · 翻译 · 2505.19381

针对端到端自动驾驶中存在的 BEV 计算昂贵、动作多样性不足以及复杂场景决策次优的问题,提出了 DiffVLA 框架。 结合了 Vision-Language Model (VLM) 进行高级决策指导,以及基于扩散模型的规划器来处理多模态驾驶行为。 引入混合稀疏-密集感知模块,同时利用显式实例信息和隐式 BEV 特征来增强规划器的场景理解能力。

5 分钟读完 6 张阅读卡 RIX, Bosch
一眼看懂 封面预览

针对端到端自动驾驶中存在的 BEV 计算昂贵、动作多样性不足以及复杂场景决策次优的问题,提出了 DiffVLA 框架。

  • 针对端到端自动驾驶中存在的 BEV 计算昂贵、动作多样性不足以及复杂场景决策次优的问题,提出了 DiffVLA 框架。
  • 结合了 Vision-Language Model (VLM) 进行高级决策指导,以及基于扩散模型的规划器来处理多模态驾驶行为。
  • 引入混合稀疏-密集感知模块,同时利用显式实例信息和隐式 BEV 特征来增强规划器的场景理解能力。
Card 01 研究单位

研究单位

  • RIX, Bosch
  • AIR, Tsinghua University
  • Shanghai University
  • Shanghai Jiao Tong University
  • Southeast University
Card 02 论文概述

论文概述

  • 针对端到端自动驾驶中存在的 BEV 计算昂贵、动作多样性不足以及复杂场景决策次优的问题,提出了 DiffVLA 框架。
  • 结合了 Vision-Language Model (VLM) 进行高级决策指导,以及基于扩散模型的规划器来处理多模态驾驶行为。
  • 引入混合稀疏-密集感知模块,同时利用显式实例信息和隐式 BEV 特征来增强规划器的场景理解能力。
Card 03 核心贡献

核心贡献

  • 提出了 DiffVLA 框架,融合了 VLM 指导、混合感知和扩散规划三大模块,实现了高性能的端到端自动驾驶。
  • 设计了 VLA Guidance Module,利用 VLM (Senna-VLM) 处理多视图图像和导航指令,生成高级驾驶命令辅助规划。
  • 构建了 Hybrid Perception Module,结合稀疏感知(3D检测、地图生成)和密集感知(BEV特征),提供全面的场景表示。
  • 开发了基于 Truncated Diffusion Policy 的规划模块,利用多模态锚点和缩短的扩散时间表,高效生成多模态轨迹。
Card 04 方法描述

方法描述

  • VLM 模块:基于 Senna-VLM 框架,使用 ViT-L/14 作为视觉编码器,Vicuna-v1.5-7B 作为 LLM,输出横向和纵向控制命令。
  • 感知模块:分为稀疏分支和密集分支。稀疏分支输出 3D 边界框和地图向量,密集分支构建 BEV 特征空间 ($128 \times 128$),骨干网络采用 VoV-99
  • 规划模块:通过 K-means 聚类构建轨迹词汇表,使用高斯噪声生成锚点。扩散模型以显式和隐式感知结果为条件,预测轨迹及其得分。
  • 后处理:针对高速场景,对预测轨迹进行 2% 减速 处理以降低碰撞率。
Card 05 数据集与资源

数据集与资源

  • 使用 NAVSIM v2 数据集进行训练和评估,包含真实的反应式背景交通参与者。
  • 模型训练分为两阶段,VLM 模块参数量约为 7B (Vicuna-v1.5-7B)。
  • 训练使用了 AdamW 优化器和余弦学习率衰减策略,Batch Size 最大为 256。
Card 06 评估与结果

评估与结果

  • Autonomous Grand Challenge 2025 (Navsim v2) 竞赛的私有测试集上进行评估。
  • 主要评估指标为 PDMS (extended_pdm_score_combined),以及碰撞率、车道保持、红绿灯合规性等子指标。
  • 最终模型取得了 45.0 PDMS 的成绩,展示了在复杂闭环场景下的优越性能。