返回列表 VLA / Vision-Language-Action 每日论文卡
ExploreVLA: Dense World Modeling and Exploration for End-to-End Autonomous Driving
论文提出了 ExploreVLA,一个统一的“理解-生成”框架,旨在解决端到端自动驾驶中现有VLA模型缺乏策略探索和监督信号稀疏的核心问题。

论文详情

ExploreVLA: Dense World Modeling and Exploration for End-to-End Autonomous Driving

2026-04-03 · 原文 · 翻译 · 2604.02714

论文提出了 ExploreVLA,一个统一的“理解-生成”框架,旨在解决端到端自动驾驶中现有VLA模型缺乏策略探索和监督信号稀疏的核心问题。 核心方法是通过密集的世界建模,即联合预测未来轨迹、RGB图像和深度图像,为规划骨干网络提供丰富的视觉与几何监督。 同时,利用世界模型的图像预测不确定性作为内在奖励信号,引导策略在专家演示之外探索新颖且安全的驾驶策略。

5 分钟读完 6 张阅读卡 Bosch Research North America & Bosch Center for Art…
一眼看懂 封面预览

论文提出了 ExploreVLA,一个统一的“理解-生成”框架,旨在解决端到端自动驾驶中现有VLA模型缺乏策略探索和监督信号稀疏的核心问题。

  • 论文提出了 ExploreVLA,一个统一的“理解-生成”框架,旨在解决端到端自动驾驶中现有VLA模型缺乏策略探索和监督信号稀疏的核心问题。
  • 核心方法是通过密集的世界建模,即联合预测未来轨迹、RGB图像和深度图像,为规划骨干网络提供丰富的视觉与几何监督。
  • 同时,利用世界模型的图像预测不确定性作为内在奖励信号,引导策略在专家演示之外探索新颖且安全的驾驶策略。
Card 01 研究单位

研究单位

  • Bosch Research North America & Bosch Center for Artificial Intelligence (BCAI)
  • University of Wisconsin–Madison
Card 02 论文概述

论文概述

  • 论文提出了 ExploreVLA,一个统一的“理解-生成”框架,旨在解决端到端自动驾驶中现有VLA模型缺乏策略探索和监督信号稀疏的核心问题。
  • 核心方法是通过密集的世界建模,即联合预测未来轨迹、RGB图像和深度图像,为规划骨干网络提供丰富的视觉与几何监督。
  • 同时,利用世界模型的图像预测不确定性作为内在奖励信号,引导策略在专家演示之外探索新颖且安全的驾驶策略。
Card 03 核心贡献

核心贡献

  • 提出了一种新颖的探索机制,利用世界模型的图像预测不确定性作为内在新颖度度量,结合安全门控奖励,鼓励有益的分布外探索。
  • 提出了一个统一VLA框架,能够联合预测未来轨迹、RGB图像和深度图像,利用密集世界建模为规划骨干网络提供丰富的视觉和几何监督。
  • NAVSIM 基准上取得了state-of-the-art性能,PDMS 达到 93.7EPDMS 达到 88.8,并在 nuScenes 数据集上验证了方法的泛化性。
Card 04 方法描述

方法描述

  • 模型基于 Show-o 架构,构建了一个统一的VLM骨干,支持自回归文本建模和离散图像生成。
  • 引入未来 RGB深度 图像生成作为辅助世界建模目标,通过掩码令牌预测损失提供token级的密集监督。
  • 利用世界模型在预测未来图像时的不确定性(通过预测概率分布的熵计算)作为内在奖励,量化轨迹相对于训练分布的新颖性。
  • 采用 Group Relative Policy Optimization (GRPO) 算法,结合安全门控的内在奖励(由 PDMS 分数阈值控制)优化策略,引导其发现多样且安全的驾驶行为。
Card 05 数据集与资源

数据集与资源

  • 主要评估基准为 NAVSIM (v1 和 v2) 和 nuScenes 数据集。
  • 模型骨干为 Show-o,图像tokenizer为 MAGVIT-v2
  • 训练使用 4×H200 GPU。
  • 输入图像尺寸调整为 256×448,深度图由 Metric3D 模型生成。
Card 06 评估与结果

评估与结果

  • NAVSIM v1 上,模型达到 PDMS 93.7 (使用best-of-N策略),超越所有现有方法;单次预测 PDMS 90.4
  • NAVSIM v2 上,模型达到 EPDMS 88.8,较之前最佳结果提升 2.7 分,并在九个子指标中六项取得最佳。
  • 消融实验证明了密集视觉监督(RGB和深度生成)对提升规划性能的贡献,以及结合 PDMS 奖励和图像探索奖励对策略优化的有效性。
  • 定性分析显示,经过第二阶段强化学习训练后,模型能修正第一阶段模型出现的碰撞、危险接近行人或闯红灯等安全关键错误。