该论文提出了一种名为 Vega 的统一视觉-语言-世界-动作模型，用于基于自然语言指令的驾驶生成和规划

论文详情

Vega: Learning to Drive with Natural Language Instructions

2026-03-26 · 原文 · 翻译 · 2603.25741

该论文提出了一种名为 Vega 的统一视觉-语言-世界-动作模型，用于基于自然语言指令的驾驶生成和规划研究问题：现有 VLA 模型仅将语言用于场景描述或决策推理，缺乏灵活的指令跟随能力，无法处理开放式自然语言指令核心思路：通过联合建模未来图像生成（世界建模）和动作规划，利用像素级监督信号帮助模型学习指令、动作和视觉预测之间的因果关系

4 分钟读完 6 张阅读卡清华大学（Tsinghua University）

一眼看懂封面预览

该论文提出了一种名为 Vega 的统一视觉-语言-世界-动作模型，用于基于自然语言指令的驾驶生成和规划

该论文提出了一种名为 Vega 的统一视觉-语言-世界-动作模型，用于基于自然语言指令的驾驶生成和规划
研究问题：现有 VLA 模型仅将语言用于场景描述或决策推理，缺乏灵活的指令跟随能力，无法处理开放式自然语言指令
核心思路：通过联合建模未来图像生成（世界建模）和动作规划，利用像素级监督信号帮助模型学习指令、动作和视觉预测之间的因果关系

Card 01 研究单位

研究单位

清华大学（Tsinghua University）
GigaAI

Card 02 论文概述

论文概述

该论文提出了一种名为 Vega 的统一视觉-语言-世界-动作模型，用于基于自然语言指令的驾驶生成和规划
研究问题：现有 VLA 模型仅将语言用于场景描述或决策推理，缺乏灵活的指令跟随能力，无法处理开放式自然语言指令
核心思路：通过联合建模未来图像生成（世界建模）和动作规划，利用像素级监督信号帮助模型学习指令、动作和视觉预测之间的因果关系

Card 03 核心贡献

核心贡献

构建了大规模驾驶数据集 InstructScene，包含约 100,000 个带有丰富驾驶指令的场景
提出统一视觉-语言-世界-动作模型 Vega，结合自回归和扩散范式
采用混合自回归-扩散 Transformer 架构：自回归处理视觉和语言理解，扩散处理图像生成和动作规划
使用 Mixture-of-Transformers (MoT) 设计解耦不同模态的参数，增强模型容量

Card 04 方法描述

方法描述

输入编码：使用 Qwen2.5 tokenizer 处理文本，VAE encoder 编码视觉图像，SigLIP2 ViT encoder 增强视觉上下文
动作编码：将 2D 绝对轨迹转换为相邻步骤之间的相对运动 (Δx, Δy, Δθ)
序列构建：历史图像和动作放置在开头，后接自然语言指令，最后是噪声目标动作或未来图像
联合注意力：使用因果注意力建模，确保文本、图像和动作之间的信息流动
训练目标：动作损失 L_A 和图像损失 L_V 的联合优化，使用 MSE 作为损失函数

Card 05 数据集与资源

数据集与资源

数据集：InstructScene（约 100,000 个场景），基于 NAVSIM 构建
基准测试：NAVSIM v1 和 NAVSIM v2
模型架构：基于 Qwen2.5 LLM（隐藏层大小 3584，28 层），使用 Bagel-7B 初始化
训练资源：8 个 H20 GPUs，训练 200k 步，batch size 为 1，学习率 2e-5

Card 06 评估与结果

评估与结果

NAVSIM v2：EPDMS 达到 86.9（不使用 best-of-N），使用 best-of-N 策略达到 89.4
NAVSIM v1：PDMS 达到 87.9，使用 best-of-N 策略达到 89.8
在多个指标上取得最优结果，包括 DDC、TLC、LK、HC 等
仅使用单目前视摄像头即可达到竞争力性能