返回列表 VLA / Vision-Language-Action 每日论文卡
UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving
提出 UniUGP 统一框架,将场景理解、未来视频生成和轨迹规划三大能力整合到端到端自动驾驶系统中

论文详情

UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving

2025-12-10 · 原文 · 翻译 · 2512.09864

提出 UniUGP 统一框架,将场景理解、未来视频生成和轨迹规划三大能力整合到端到端自动驾驶系统中 解决现有 VLA 方法无法利用无标签视频进行视觉因果学习、世界模型缺乏大语言模型推理能力的局限性 针对长尾场景(罕见但关键的驾驶情况)提升自动驾驶系统的泛化能力和安全性

5 分钟读完 6 张阅读卡 ByteDance Seed
一眼看懂 封面预览

提出 UniUGP 统一框架,将场景理解、未来视频生成和轨迹规划三大能力整合到端到端自动驾驶系统中

  • 提出 UniUGP 统一框架,将场景理解、未来视频生成和轨迹规划三大能力整合到端到端自动驾驶系统中
  • 解决现有 VLA 方法无法利用无标签视频进行视觉因果学习、世界模型缺乏大语言模型推理能力的局限性
  • 针对长尾场景(罕见但关键的驾驶情况)提升自动驾驶系统的泛化能力和安全性
Card 01 研究单位

研究单位

  • ByteDance Seed
Card 02 论文概述

论文概述

  • 提出 UniUGP 统一框架,将场景理解、未来视频生成和轨迹规划三大能力整合到端到端自动驾驶系统中
  • 解决现有 VLA 方法无法利用无标签视频进行视觉因果学习、世界模型缺乏大语言模型推理能力的局限性
  • 针对长尾场景(罕见但关键的驾驶情况)提升自动驾驶系统的泛化能力和安全性
Card 03 核心贡献

核心贡献

  • 构建了多个专门的自动驾驶数据集,为复杂场景提供解释、推理和规划标注
  • 提出基于混合专家架构的 UniUGP 统一理解-生成-规划框架,协同场景推理、未来视频生成和轨迹规划
  • 设计四阶段训练策略,逐步建立基础场景理解、视觉动态建模、文本推理和多能力融合
  • 整合预训练 VLM(Qwen2.5-VL)和视频生成模型(Wan2.1)的知识优势
  • 实现可解释的链式思维推理、物理一致的轨迹预测和连贯的未来视频生成
Card 04 方法描述

方法描述

  • 混合专家架构:包含理解专家(基于 Qwen2.5-VL-3B)、规划专家(流匹配生成连续轨迹)和生成专家(基于 Wan2.1 的未来视频生成)
  • Mixture-of-Transformers (MoT):理解专家和规划专家共享注意力机制但使用独立的前馈网络
  • 流匹配(Flow Matching):用于连续轨迹规划和视频生成,支持可微分优化
  • 四阶段训练:阶段1(理解专家连续训练)→ 阶段2(视觉动态建模与规划训练)→ 阶段3(文本推理学习)→ 阶段4(混合训练实现多能力融合)
Card 05 数据集与资源

数据集与资源

  • 训练数据集:自定义长尾数据集、ImpromptuVLAnuScenesNuPlanWaymoLyftCosmos
  • 评估数据集DADA2000Lost and Found (LaF)StreetHazards (StHa)SOMAADVWaymo-E2EDriveLM
  • 模型规模:基于 Qwen2.5-VL-3B 骨干网络
  • 训练资源:每阶段 8 节点 × 8 GPU(80GB),共 64 张 GPU
  • 训练步数:阶段1(1M)、阶段2(4M)、阶段3(1M)、阶段4(4M)
Card 06 评估与结果

评估与结果

  • 理解能力评估:在长尾场景理解基准上,Small 物体识别达 89.3%、事故主体关系 88.6%、异常预测 95.8%,超越 GPT-4oQwen-2.5-VL-72B
  • 规划能力评估:在 nuScenes 上,仅使用前相机输入时平均 L2 误差 1.23m,碰撞率 0.33%,优于 Doe-1Epona 等方法
  • 生成能力评估:未来帧生成质量在 FID 指标上显著优于 DriveDreamerDrive-WMGenAD 等基线方法
  • 指令跟随能力:L2 (3s) 误差 1.40,支持自然语言交互调整轨迹