返回列表 VLA / Vision-Language-Action 每日论文卡
DriveDreamer-Policy: A Geometry-Grounded World-Action Model for Unified Generation and Planning
提出一个统一的驾驶世界-动作模型 DriveDreamer-Policy,整合深度生成、未来视频生成与运动规划

论文详情

DriveDreamer-Policy: A Geometry-Grounded World-Action Model for Unified Generation and Planning

2026-04-02 · 原文 · 翻译 · 2604.01765

提出一个统一的驾驶世界-动作模型 DriveDreamer-Policy,整合深度生成、未来视频生成与运动规划 解决现有世界-动作模型缺乏几何基础的问题,通过显式深度学习为未来预测和规划提供结构化支持 实现在单一模块化架构中同时完成世界理解、生成与决策任务

4 分钟读完 6 张阅读卡 GigaAI
一眼看懂 封面预览

提出一个统一的驾驶世界-动作模型 DriveDreamer-Policy,整合深度生成、未来视频生成与运动规划

  • 提出一个统一的驾驶世界-动作模型 DriveDreamer-Policy,整合深度生成、未来视频生成与运动规划
  • 解决现有世界-动作模型缺乏几何基础的问题,通过显式深度学习为未来预测和规划提供结构化支持
  • 实现在单一模块化架构中同时完成世界理解、生成与决策任务
Card 01 研究单位

研究单位

  • GigaAI
  • University of Toronto
  • CUHK MMLab
Card 02 论文概述

论文概述

  • 提出一个统一的驾驶世界-动作模型 DriveDreamer-Policy,整合深度生成、未来视频生成与运动规划
  • 解决现有世界-动作模型缺乏几何基础的问题,通过显式深度学习为未来预测和规划提供结构化支持
  • 实现在单一模块化架构中同时完成世界理解、生成与决策任务
Card 03 核心贡献

核心贡献

  • 提出模块化的世界-动作架构,结合 LLM 与轻量级生成专家,实现可控的计算开销
  • 引入显式 3D深度生成模块,并采用因果 3D→2D→1D 条件通路,使几何信息直接引导视频生成和规划
  • Navsim v1/v2 基准上达到 SOTA 性能,规划与世界生成质量均超越现有方法
Card 04 方法描述

方法描述

  • 使用 大型语言模型(LLM) 处理语言指令、多视角图像和动作,输出世界与动作嵌入
  • 设计三个轻量级生成专家:像素空间 深度生成器、潜空间 视频生成器动作生成器
  • 采用结构化因果注意力掩码,实现 深度→视频→动作 的单向信息流,确保几何理解引导后续生成与规划
  • 使用 流匹配(Flow Matching) 目标训练生成专家,联合多任务损失优化所有组件
Card 05 数据集与资源

数据集与资源

  • 训练与评估基于 Navsim v1Navsim v2 基准,使用 navtrain 数据集(100k样本)
  • 模型骨干基于 Qwen3-VL-2B,深度生成器从 PPD 初始化,视频生成器从 Wan-2.1-T2V-1.3B 适配
  • 训练使用 8张 NVIDIA H20 GPU,单阶段训练100k步,批大小为32
  • 深度标签由 Depth Anything 3 (DA3) 基础模型提供
Card 06 评估与结果

评估与结果

  • Navsim v1 上达到 89.2 PDMS,超越所有对比的世界模型方法
  • Navsim v2 上达到 88.7 EPDMS,比前方法提升 +2.6
  • 视频生成质量显著提升,FVD53.59(比前方法降低 32.36)
  • 深度预测 AbsRel8.1,优于微调后的 PPD(9.3)
  • 消融实验显示:深度与视频联合学习提供互补益处,提升规划鲁棒性