一眼看懂
封面预览
提出一种简单有效的视觉-语言-动作世界模型(VLA-World),将预测性想象与反思推理统一到单一框架中,用于自动驾驶。
- 提出一种简单有效的视觉-语言-动作世界模型(VLA-World),将预测性想象与反思推理统一到单一框架中,用于自动驾驶。
- 通过“短期轨迹引导未来帧生成、再对生成未来进行推理以优化轨迹”的闭环流程,解决现有VLA模型缺乏显式时空建模和世界模型缺乏推理能力的问题。
- 构建专用数据集nuScenes-GR-20K,并采用三阶段训练策略以充分发挥模型潜力。
Card 01
研究单位
研究单位
- 上海交通大学人工智能学院、MoE人工智能重点实验室
- 华为中央研究院
Card 02
论文概述
论文概述
- 提出一种简单有效的视觉-语言-动作世界模型(VLA-World),将预测性想象与反思推理统一到单一框架中,用于自动驾驶。
- 通过“短期轨迹引导未来帧生成、再对生成未来进行推理以优化轨迹”的闭环流程,解决现有VLA模型缺乏显式时空建模和世界模型缺乏推理能力的问题。
- 构建专用数据集nuScenes-GR-20K,并采用三阶段训练策略以充分发挥模型潜力。
Card 03
核心贡献
核心贡献
- 引入一个简单有效的VLA-World模型,统一了预测想象与反思推理。
- 创建了专注于生成与推理的nuScenes-GR-20K数据集,并提出了三阶段训练策略。
- 在未来帧生成和轨迹规划基准上均取得优异性能,超越了现有的VLA模型和世界模型。
Card 04
方法描述
方法描述
- 提出一个统一框架,融合VLA模型的推理能力与世界模型的时空建模优势。
- 核心流程包括:感知、短期预测、生成、思考与规划。首先预测短期轨迹并据此生成未来帧,随后对生成内容进行反思推理以修正最终轨迹。
- 创新点在于将自生成的未来帧作为显式推理线索,并通过GRPO强化学习优化整个流程。
Card 05
数据集与资源
数据集与资源
- 主要使用nuScenes数据集并衍生构建了nuScenes-GR-20K数据集。
- 模型基于Qwen2-VL-2B,参数规模为2B。
- 训练资源为8×80 GB GPUs。
Card 06
评估与结果
评估与结果
- 在nuScenes数据集上进行评估,使用L2位移误差、碰撞率和FID作为主要指标。
- 在轨迹规划任务上,VLA-World取得了最低的平均L2误差和碰撞率。
- 在未来帧生成任务上,VLA-World取得了最低的FID分数,表明生成质量最优。