返回列表 VLA / Vision-Language-Action 每日论文卡
Learning Vision-Language-Action World Models for Autonomous Driving
提出一种简单有效的视觉-语言-动作世界模型(VLA-World),将预测性想象与反思推理统一到单一框架中,用于自动驾驶。

论文详情

Learning Vision-Language-Action World Models for Autonomous Driving

2026-04-10 · 原文 · 翻译 · 2604.09059

提出一种简单有效的视觉-语言-动作世界模型(VLA-World),将预测性想象与反思推理统一到单一框架中,用于自动驾驶。 通过“短期轨迹引导未来帧生成、再对生成未来进行推理以优化轨迹”的闭环流程,解决现有VLA模型缺乏显式时空建模和世界模型缺乏推理能力的问题。 构建专用数据集nuScenes-GR-20K,并采用三阶段训练策略以充分发挥模型潜力。

3 分钟读完 6 张阅读卡 上海交通大学人工智能学院、MoE人工智能重点实验室
一眼看懂 封面预览

提出一种简单有效的视觉-语言-动作世界模型(VLA-World),将预测性想象与反思推理统一到单一框架中,用于自动驾驶。

  • 提出一种简单有效的视觉-语言-动作世界模型(VLA-World),将预测性想象与反思推理统一到单一框架中,用于自动驾驶。
  • 通过“短期轨迹引导未来帧生成、再对生成未来进行推理以优化轨迹”的闭环流程,解决现有VLA模型缺乏显式时空建模和世界模型缺乏推理能力的问题。
  • 构建专用数据集nuScenes-GR-20K,并采用三阶段训练策略以充分发挥模型潜力。
Card 01 研究单位

研究单位

  • 上海交通大学人工智能学院、MoE人工智能重点实验室
  • 华为中央研究院
Card 02 论文概述

论文概述

  • 提出一种简单有效的视觉-语言-动作世界模型(VLA-World),将预测性想象与反思推理统一到单一框架中,用于自动驾驶。
  • 通过“短期轨迹引导未来帧生成、再对生成未来进行推理以优化轨迹”的闭环流程,解决现有VLA模型缺乏显式时空建模世界模型缺乏推理能力的问题。
  • 构建专用数据集nuScenes-GR-20K,并采用三阶段训练策略以充分发挥模型潜力。
Card 03 核心贡献

核心贡献

  • 引入一个简单有效的VLA-World模型,统一了预测想象与反思推理。
  • 创建了专注于生成与推理的nuScenes-GR-20K数据集,并提出了三阶段训练策略。
  • 在未来帧生成和轨迹规划基准上均取得优异性能,超越了现有的VLA模型世界模型
Card 04 方法描述

方法描述

  • 提出一个统一框架,融合VLA模型的推理能力与世界模型的时空建模优势。
  • 核心流程包括:感知、短期预测、生成、思考与规划。首先预测短期轨迹并据此生成未来帧,随后对生成内容进行反思推理以修正最终轨迹。
  • 创新点在于将自生成的未来帧作为显式推理线索,并通过GRPO强化学习优化整个流程。
Card 05 数据集与资源

数据集与资源

  • 主要使用nuScenes数据集并衍生构建了nuScenes-GR-20K数据集
  • 模型基于Qwen2-VL-2B,参数规模为2B
  • 训练资源为8×80 GB GPUs
Card 06 评估与结果

评估与结果

  • nuScenes数据集上进行评估,使用L2位移误差碰撞率FID作为主要指标。
  • 在轨迹规划任务上,VLA-World取得了最低的平均L2误差和碰撞率。
  • 在未来帧生成任务上,VLA-World取得了最低的FID分数,表明生成质量最优。