论文提出了 ExploreVLA，一个统一的“理解-生成”框架，旨在解决端到端自动驾驶中现有VLA模型缺乏策略探索和监督信号稀疏的核心问题。

论文详情

ExploreVLA: Dense World Modeling and Exploration for End-to-End Autonomous Driving

2026-04-03 · 原文 · 翻译 · 2604.02714

论文提出了 ExploreVLA，一个统一的“理解-生成”框架，旨在解决端到端自动驾驶中现有VLA模型缺乏策略探索和监督信号稀疏的核心问题。核心方法是通过密集的世界建模，即联合预测未来轨迹、RGB图像和深度图像，为规划骨干网络提供丰富的视觉与几何监督。同时，利用世界模型的图像预测不确定性作为内在奖励信号，引导策略在专家演示之外探索新颖且安全的驾驶策略。

5 分钟读完 6 张阅读卡 Bosch Research North America & Bosch Center for Art…

一眼看懂封面预览

论文提出了 ExploreVLA，一个统一的“理解-生成”框架，旨在解决端到端自动驾驶中现有VLA模型缺乏策略探索和监督信号稀疏的核心问题。

论文提出了 ExploreVLA，一个统一的“理解-生成”框架，旨在解决端到端自动驾驶中现有VLA模型缺乏策略探索和监督信号稀疏的核心问题。
核心方法是通过密集的世界建模，即联合预测未来轨迹、RGB图像和深度图像，为规划骨干网络提供丰富的视觉与几何监督。
同时，利用世界模型的图像预测不确定性作为内在奖励信号，引导策略在专家演示之外探索新颖且安全的驾驶策略。

Card 01 研究单位

研究单位

Bosch Research North America & Bosch Center for Artificial Intelligence (BCAI)
University of Wisconsin–Madison

Card 02 论文概述

论文概述

论文提出了 ExploreVLA，一个统一的“理解-生成”框架，旨在解决端到端自动驾驶中现有VLA模型缺乏策略探索和监督信号稀疏的核心问题。
核心方法是通过密集的世界建模，即联合预测未来轨迹、RGB图像和深度图像，为规划骨干网络提供丰富的视觉与几何监督。
同时，利用世界模型的图像预测不确定性作为内在奖励信号，引导策略在专家演示之外探索新颖且安全的驾驶策略。

Card 03 核心贡献

核心贡献

提出了一种新颖的探索机制，利用世界模型的图像预测不确定性作为内在新颖度度量，结合安全门控奖励，鼓励有益的分布外探索。
提出了一个统一VLA框架，能够联合预测未来轨迹、RGB图像和深度图像，利用密集世界建模为规划骨干网络提供丰富的视觉和几何监督。
在 NAVSIM 基准上取得了state-of-the-art性能，PDMS 达到 93.7，EPDMS 达到 88.8，并在 nuScenes 数据集上验证了方法的泛化性。

Card 04 方法描述

方法描述

模型基于 Show-o 架构，构建了一个统一的VLM骨干，支持自回归文本建模和离散图像生成。
引入未来 RGB 和深度图像生成作为辅助世界建模目标，通过掩码令牌预测损失提供token级的密集监督。
利用世界模型在预测未来图像时的不确定性（通过预测概率分布的熵计算）作为内在奖励，量化轨迹相对于训练分布的新颖性。
采用 Group Relative Policy Optimization (GRPO) 算法，结合安全门控的内在奖励（由 PDMS 分数阈值控制）优化策略，引导其发现多样且安全的驾驶行为。

Card 05 数据集与资源

数据集与资源

主要评估基准为 NAVSIM (v1 和 v2) 和 nuScenes 数据集。
模型骨干为 Show-o，图像tokenizer为 MAGVIT-v2。
训练使用 4×H200 GPU。
输入图像尺寸调整为 256×448，深度图由 Metric3D 模型生成。

Card 06 评估与结果

评估与结果

在 NAVSIM v1 上，模型达到 PDMS 93.7 (使用best-of-N策略)，超越所有现有方法；单次预测 PDMS 90.4。
在 NAVSIM v2 上，模型达到 EPDMS 88.8，较之前最佳结果提升 2.7 分，并在九个子指标中六项取得最佳。
消融实验证明了密集视觉监督（RGB和深度生成）对提升规划性能的贡献，以及结合 PDMS 奖励和图像探索奖励对策略优化的有效性。
定性分析显示，经过第二阶段强化学习训练后，模型能修正第一阶段模型出现的碰撞、危险接近行人或闯红灯等安全关键错误。