AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving

论文详情

AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving

2025-09-02 · 原文 · 翻译 · 2509.01944

提出 AutoDrive-R²，一种增强自动驾驶 VLA（Vision-Language-Action）模型推理和自我反思能力的新框架解决现有 VLA 方法在轨迹生成中存在的两个关键问题：物理不可行的输出和复杂驾驶场景下推理能力不足通过链式思维（CoT）处理与强化学习（RL）相结合，实现可解释且物理可行的轨迹规划

6 分钟读完 6 张阅读卡 AMAP, Alibaba Group（阿里巴巴集团旗下高德地图）

一眼看懂封面预览

提出 AutoDrive-R²，一种增强自动驾驶 VLA（Vision-Language-Action）模型推理和自我反思能力的新框架

提出 AutoDrive-R²，一种增强自动驾驶 VLA（Vision-Language-Action）模型推理和自我反思能力的新框架
解决现有 VLA 方法在轨迹生成中存在的两个关键问题：物理不可行的输出和复杂驾驶场景下推理能力不足
通过链式思维（CoT）处理与强化学习（RL）相结合，实现可解释且物理可行的轨迹规划

Card 01 研究单位

研究单位

AMAP, Alibaba Group（阿里巴巴集团旗下高德地图）
University of Queensland（昆士兰大学）
Lanzhou University（兰州大学）
Case Western Reserve University（凯斯西储大学）

Card 02 论文概述

论文概述

提出 AutoDrive-R²，一种增强自动驾驶 VLA（Vision-Language-Action）模型推理和自我反思能力的新框架
解决现有 VLA 方法在轨迹生成中存在的两个关键问题：物理不可行的输出和复杂驾驶场景下推理能力不足
通过链式思维（CoT）处理与强化学习（RL）相结合，实现可解释且物理可行的轨迹规划

Card 03 核心贡献

核心贡献

提出 AutoDrive-R² 框架，实现从视觉信息和语言指令中进行语义推理、自我反思和轨迹规划
构建 nuScenesR²-6K 数据集，采用四步逻辑链（可视化→计算→逻辑→反思）并包含自我反思验证机制
基于 GRPO（Group Relative Policy Optimization） 的强化学习后训练方法，融入物理约束的奖励框架
提出物理基础的奖励函数，整合空间对齐、车辆动力学和时间平滑性三个维度
在 nuScenes 和 Waymo 数据集上实现 SOTA 性能，并展现强大的零样本泛化能力

Card 04 方法描述

方法描述

两阶段训练流程：

- 第一阶段（SFT）：使用 nuScenesR²-6K 数据集进行监督微调，建立输入信息与输出轨迹之间的认知桥梁

- 第二阶段（RL）：采用 GRPO 算法进行强化学习优化，无需价值网络，通过组内相对比较机制降低计算开销

四步 CoT 推理链：图像驱动分析 → 物理计算 → 情境逻辑综合 → 自我反思验证
物理基础奖励框架：

- 空间对齐奖励（r_pos）：预测轨迹与真值轨迹的欧氏距离

- 转向角约束（r_ste）：确保运动学可行性

- 速度约束（r_vel）：避免不合理的加减速模式

- 时间平滑性（r_tem）：惩罚控制信号的剧烈变化

Card 05 数据集与资源

数据集与资源

训练数据集：nuScenesR²-6K（6,000 个图像-轨迹样本对，3 秒轨迹规划，0.5 秒间隔）
评估数据集：nuScenes（1,000 城市场景）和 Waymo（4,021 驾驶片段）
基础模型：Qwen2.5-VL-3B 和 Qwen2.5-VL-7B
训练配置：学习率 5e-7，批次大小 1，GRPO 每输入采样 6 个响应，最大完成长度 4,096 tokens

Card 06 评估与结果

评估与结果

评估指标：L2 距离（1s、2s、3s 及平均误差，单位：米）
nuScenes 结果：AutoDrive-R² 7B 达到 0.13m（1s）、0.19m（2s）、0.25m（3s）、0.19m（平均），超越 EMMA+ 等现有方法
Waymo 零样本结果：平均 L2 误差 0.20m，相比 EMMA+ 降低 33.3%，相比 Qwen2-VL-72B 降低 90.7%
模型规模分析：7B 模型最优（0.19m），3B 模型通过两阶段框架仍达 0.49m，显著优于基线
消融实验：

- 纯 RL 训练效果（0.33m）劣于 SFT+RL 两阶段（0.19m），验证冷启动必要性

- 移除四步推理结构导致 31.5% 性能下降，移除自我反思导致 21.1% 下降

- 各物理奖励组件均为必要，移除空间对齐惩罚导致误差升至 0.53m