一眼看懂
封面预览
该论文提出了一种名为 Vega 的统一视觉-语言-世界-动作模型,用于基于自然语言指令的驾驶生成和规划
- 该论文提出了一种名为 Vega 的统一视觉-语言-世界-动作模型,用于基于自然语言指令的驾驶生成和规划
- 研究问题:现有 VLA 模型仅将语言用于场景描述或决策推理,缺乏灵活的指令跟随能力,无法处理开放式自然语言指令
- 核心思路:通过联合建模未来图像生成(世界建模)和动作规划,利用像素级监督信号帮助模型学习指令、动作和视觉预测之间的因果关系
Card 01
研究单位
研究单位
- 清华大学(Tsinghua University)
- GigaAI
Card 02
论文概述
论文概述
- 该论文提出了一种名为 Vega 的统一视觉-语言-世界-动作模型,用于基于自然语言指令的驾驶生成和规划
- 研究问题:现有 VLA 模型仅将语言用于场景描述或决策推理,缺乏灵活的指令跟随能力,无法处理开放式自然语言指令
- 核心思路:通过联合建模未来图像生成(世界建模)和动作规划,利用像素级监督信号帮助模型学习指令、动作和视觉预测之间的因果关系
Card 03
核心贡献
核心贡献
- 构建了大规模驾驶数据集 InstructScene,包含约 100,000 个带有丰富驾驶指令的场景
- 提出统一视觉-语言-世界-动作模型 Vega,结合自回归和扩散范式
- 采用混合自回归-扩散 Transformer 架构:自回归处理视觉和语言理解,扩散处理图像生成和动作规划
- 使用 Mixture-of-Transformers (MoT) 设计解耦不同模态的参数,增强模型容量
Card 04
方法描述
方法描述
- 输入编码:使用 Qwen2.5 tokenizer 处理文本,VAE encoder 编码视觉图像,SigLIP2 ViT encoder 增强视觉上下文
- 动作编码:将 2D 绝对轨迹转换为相邻步骤之间的相对运动 (Δx, Δy, Δθ)
- 序列构建:历史图像和动作放置在开头,后接自然语言指令,最后是噪声目标动作或未来图像
- 联合注意力:使用因果注意力建模,确保文本、图像和动作之间的信息流动
- 训练目标:动作损失 L_A 和图像损失 L_V 的联合优化,使用 MSE 作为损失函数
Card 05
数据集与资源
数据集与资源
- 数据集:InstructScene(约 100,000 个场景),基于 NAVSIM 构建
- 基准测试:NAVSIM v1 和 NAVSIM v2
- 模型架构:基于 Qwen2.5 LLM(隐藏层大小 3584,28 层),使用 Bagel-7B 初始化
- 训练资源:8 个 H20 GPUs,训练 200k 步,batch size 为 1,学习率 2e-5
Card 06
评估与结果
评估与结果
- NAVSIM v2:EPDMS 达到 86.9(不使用 best-of-N),使用 best-of-N 策略达到 89.4
- NAVSIM v1:PDMS 达到 87.9,使用 best-of-N 策略达到 89.8
- 在多个指标上取得最优结果,包括 DDC、TLC、LK、HC 等
- 仅使用单目前视摄像头即可达到竞争力性能