提出一种简单有效的视觉-语言-动作世界模型(VLA-World)，将预测性想象与反思推理统一到单一框架中，用于自动驾驶。

论文详情

Learning Vision-Language-Action World Models for Autonomous Driving

2026-04-10 · 原文 · 翻译 · 2604.09059

提出一种简单有效的视觉-语言-动作世界模型(VLA-World)，将预测性想象与反思推理统一到单一框架中，用于自动驾驶。通过“短期轨迹引导未来帧生成、再对生成未来进行推理以优化轨迹”的闭环流程，解决现有VLA模型缺乏显式时空建模和世界模型缺乏推理能力的问题。构建专用数据集nuScenes-GR-20K，并采用三阶段训练策略以充分发挥模型潜力。

3 分钟读完 6 张阅读卡上海交通大学人工智能学院、MoE人工智能重点实验室

一眼看懂封面预览

提出一种简单有效的视觉-语言-动作世界模型(VLA-World)，将预测性想象与反思推理统一到单一框架中，用于自动驾驶。

提出一种简单有效的视觉-语言-动作世界模型(VLA-World)，将预测性想象与反思推理统一到单一框架中，用于自动驾驶。
通过“短期轨迹引导未来帧生成、再对生成未来进行推理以优化轨迹”的闭环流程，解决现有VLA模型缺乏显式时空建模和世界模型缺乏推理能力的问题。
构建专用数据集nuScenes-GR-20K，并采用三阶段训练策略以充分发挥模型潜力。

Card 01 研究单位

研究单位

上海交通大学人工智能学院、MoE人工智能重点实验室
华为中央研究院

Card 02 论文概述

论文概述

提出一种简单有效的视觉-语言-动作世界模型(VLA-World)，将预测性想象与反思推理统一到单一框架中，用于自动驾驶。
通过“短期轨迹引导未来帧生成、再对生成未来进行推理以优化轨迹”的闭环流程，解决现有VLA模型缺乏显式时空建模和世界模型缺乏推理能力的问题。
构建专用数据集nuScenes-GR-20K，并采用三阶段训练策略以充分发挥模型潜力。

Card 03 核心贡献

核心贡献

引入一个简单有效的VLA-World模型，统一了预测想象与反思推理。
创建了专注于生成与推理的nuScenes-GR-20K数据集，并提出了三阶段训练策略。
在未来帧生成和轨迹规划基准上均取得优异性能，超越了现有的VLA模型和世界模型。

Card 04 方法描述

方法描述

提出一个统一框架，融合VLA模型的推理能力与世界模型的时空建模优势。
核心流程包括：感知、短期预测、生成、思考与规划。首先预测短期轨迹并据此生成未来帧，随后对生成内容进行反思推理以修正最终轨迹。
创新点在于将自生成的未来帧作为显式推理线索，并通过GRPO强化学习优化整个流程。

Card 05 数据集与资源

数据集与资源

主要使用nuScenes数据集并衍生构建了nuScenes-GR-20K数据集。
模型基于Qwen2-VL-2B，参数规模为2B。
训练资源为8×80 GB GPUs。

Card 06 评估与结果

评估与结果

在nuScenes数据集上进行评估，使用L2位移误差、碰撞率和FID作为主要指标。
在轨迹规划任务上，VLA-World取得了最低的平均L2误差和碰撞率。
在未来帧生成任务上，VLA-World取得了最低的FID分数，表明生成质量最优。