Generative Scenario Rollouts for End-to-End Autonomous Driving - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

论文提出 GeRo (Generative Scenario Rollouts)，一个用于视觉-语言-动作 (VLA) 模型的即插即用框架，将…

论文提出 GeRo (Generative Scenario Rollouts)，一个用于视觉-语言-动作 (VLA) 模型的即插即用框架，将…
通过自回归场景展开策略，联合执行规划与语言引导的未来交通场景生成，解决当前 VLA 模型依赖稀疏轨迹标注、未充分利用生成能力的问题
旨在提升自动驾驶系统在复杂动态环境中的长时程推理、多智能体规划和语言-动作对齐能力

Card 01 研究单位

研究单位

Qualcomm AI Research (高通人工智能研究)
Qualcomm Technologies, Inc. (高通技术公司)

Card 02 论文概述

论文概述

论文提出 GeRo (Generative Scenario Rollouts)，一个用于视觉-语言-动作 (VLA) 模型的即插即用框架，将场景生成与端到端自动驾驶的运动规划统一起来
通过自回归场景展开策略，联合执行规划与语言引导的未来交通场景生成，解决当前 VLA 模型依赖稀疏轨迹标注、未充分利用生成能力的问题
旨在提升自动驾驶系统在复杂动态环境中的长时程推理、多智能体规划和语言-动作对齐能力

Card 03 核心贡献

核心贡献

首次将场景生成与运动预测、规划、视觉问答联合进行，提出 GeRo 生成式场景展开框架
设计基于 GRPO (Generalized Rollout Policy Optimization) 的新型奖励函数，联合优化轨迹精度与语言描述的语义对齐，包含碰撞避免、时间到碰撞 (TTC) 等安全关键指标
引入交互式视觉问答 (VQA) 组件，将自车意图用自然语言进行 grounding，支持复杂驾驶环境中的语言引导推理
提出 rollout 一致性损失，通过 KL 散度对齐预测分布与预训练潜在分布，缓解自回归生成的漂移问题

Card 04 方法描述

方法描述

两阶段训练框架：

- 预训练阶段：VLA 模型学习将自车和智能体动态编码为紧凑的共享 token 空间，联合监督规划、多智能体运动预测和视觉问答任务

- 场景展开阶段：基于语言条件的自回归生成，预测未来潜在 token 和自车动作描述，通过反馈循环指导长时程推理

关键技术：

- 使用 VAE (变分自编码器) 作为生成式规划头，将 LLM 输出转换为轨迹分布

- Rollout 一致性损失：结合真实标签监督与基于预训练模型的伪标签监督，通过 KL 散度强制时序一致性

- GRPO 强化学习：在场景展开中引入可微替代奖励，包括碰撞损失、TTC 惩罚和语言预测准确率

Card 05 数据集与资源

数据集与资源

数据集：

- Bench2Drive：基于 CARLA 的闭环端到端自动驾驶基准，1000 个片段（950 训练/50 验证），220 条测试路线覆盖 44 种交互场景

- nuScenes：开环规划基准，28,000 个样本（22k/6k 训练/验证划分）

- ChatB2D / DriveLM-nuScenes：用于场景描述和视觉问答的语言标注

模型架构：

- GeRo (Qwen)：基于 Qwen2.5VL-3B 多模态大语言模型

- GeRo (ORION)：基于 ORION VLA 模型

- 视觉编码器：EVA 预训练 ViT

训练资源：8 张 NVIDIA H100 GPU
训练设置：预训练 24 epoch，场景展开训练 24 epoch，学习率 2×10⁻⁴，使用 AdamW 优化器和余弦退火调度

Card 06 评估与结果

评估与结果

评估基准：Bench2Drive（闭环）、nuScenes（开环）
主要评估指标：

- 闭环：Driving Score (DS)、Success Rate (SR)、效率、舒适度、多能力指标（并道、超车、紧急制动、让行、交通标志）

- 开环：L2 轨迹误差、碰撞率

关键实验结果：

- Bench2Drive 闭环：GeRo (Qwen) 相比基线 Qwen2.5VL，DS 提升 +15.7（63.9→79.6），SR 提升 +26.2%（31.6%→57.8%）；GeRo (ORION) 相比 ORION 基线，DS 提升 +4.16（77.74→81.90），SR 提升 +5.5%（54.62%→60.10%）

- 多能力指标：GeRo (Qwen) 平均能力提升 140%（25.6→61.98），GeRo (ORION) 提升 26.7%（54.72→66.49），在并道、超车、紧急制动等关键技能上均有显著改进

- nuScenes 开环：GeRo (Qwen) L2 误差降低 67.7%（0.96→0.31），碰撞率降低 76.7%（0.60→0.14）；零样本测试显示强泛化能力