返回列表 VLA / Vision-Language-Action 每日论文卡
Vega: Learning to Drive with Natural Language Instructions
该论文提出了一种名为 Vega 的统一视觉-语言-世界-动作模型,用于基于自然语言指令的驾驶生成和规划

论文详情

Vega: Learning to Drive with Natural Language Instructions

2026-03-26 · 原文 · 翻译 · 2603.25741

该论文提出了一种名为 Vega 的统一视觉-语言-世界-动作模型,用于基于自然语言指令的驾驶生成和规划 研究问题:现有 VLA 模型仅将语言用于场景描述或决策推理,缺乏灵活的指令跟随能力,无法处理开放式自然语言指令 核心思路:通过联合建模未来图像生成(世界建模)和动作规划,利用像素级监督信号帮助模型学习指令、动作和视觉预测之间的因果关系

4 分钟读完 6 张阅读卡 清华大学(Tsinghua University)
一眼看懂 封面预览

该论文提出了一种名为 Vega 的统一视觉-语言-世界-动作模型,用于基于自然语言指令的驾驶生成和规划

  • 该论文提出了一种名为 Vega 的统一视觉-语言-世界-动作模型,用于基于自然语言指令的驾驶生成和规划
  • 研究问题:现有 VLA 模型仅将语言用于场景描述或决策推理,缺乏灵活的指令跟随能力,无法处理开放式自然语言指令
  • 核心思路:通过联合建模未来图像生成(世界建模)和动作规划,利用像素级监督信号帮助模型学习指令、动作和视觉预测之间的因果关系
Card 01 研究单位

研究单位

  • 清华大学(Tsinghua University)
  • GigaAI
Card 02 论文概述

论文概述

  • 该论文提出了一种名为 Vega 的统一视觉-语言-世界-动作模型,用于基于自然语言指令的驾驶生成和规划
  • 研究问题:现有 VLA 模型仅将语言用于场景描述或决策推理,缺乏灵活的指令跟随能力,无法处理开放式自然语言指令
  • 核心思路:通过联合建模未来图像生成(世界建模)和动作规划,利用像素级监督信号帮助模型学习指令、动作和视觉预测之间的因果关系
Card 03 核心贡献

核心贡献

  • 构建了大规模驾驶数据集 InstructScene,包含约 100,000 个带有丰富驾驶指令的场景
  • 提出统一视觉-语言-世界-动作模型 Vega,结合自回归和扩散范式
  • 采用混合自回归-扩散 Transformer 架构:自回归处理视觉和语言理解,扩散处理图像生成和动作规划
  • 使用 Mixture-of-Transformers (MoT) 设计解耦不同模态的参数,增强模型容量
Card 04 方法描述

方法描述

  • 输入编码:使用 Qwen2.5 tokenizer 处理文本,VAE encoder 编码视觉图像,SigLIP2 ViT encoder 增强视觉上下文
  • 动作编码:将 2D 绝对轨迹转换为相邻步骤之间的相对运动 (Δx, Δy, Δθ)
  • 序列构建:历史图像和动作放置在开头,后接自然语言指令,最后是噪声目标动作或未来图像
  • 联合注意力:使用因果注意力建模,确保文本、图像和动作之间的信息流动
  • 训练目标:动作损失 L_A 和图像损失 L_V 的联合优化,使用 MSE 作为损失函数
Card 05 数据集与资源

数据集与资源

  • 数据集:InstructScene(约 100,000 个场景),基于 NAVSIM 构建
  • 基准测试:NAVSIM v1 和 NAVSIM v2
  • 模型架构:基于 Qwen2.5 LLM(隐藏层大小 3584,28 层),使用 Bagel-7B 初始化
  • 训练资源:8 个 H20 GPUs,训练 200k 步,batch size 为 1,学习率 2e-5
Card 06 评估与结果

评估与结果

  • NAVSIM v2:EPDMS 达到 86.9(不使用 best-of-N),使用 best-of-N 策略达到 89.4
  • NAVSIM v1:PDMS 达到 87.9,使用 best-of-N 策略达到 89.8
  • 在多个指标上取得最优结果,包括 DDC、TLC、LK、HC 等
  • 仅使用单目前视摄像头即可达到竞争力性能