返回列表 VLA / Vision-Language-Action 每日论文卡

AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving

论文详情

AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving

2025-09-02 · 原文 · 翻译 · 2509.01944

提出 AutoDrive-R²,一种增强自动驾驶 VLA(Vision-Language-Action)模型推理和自我反思能力的新框架 解决现有 VLA 方法在轨迹生成中存在的两个关键问题:物理不可行的输出和复杂驾驶场景下推理能力不足 通过链式思维(CoT)处理与强化学习(RL)相结合,实现可解释且物理可行的轨迹规划

6 分钟读完 6 张阅读卡 AMAP, Alibaba Group(阿里巴巴集团旗下高德地图)
一眼看懂 封面预览

提出 AutoDrive-R²,一种增强自动驾驶 VLA(Vision-Language-Action)模型推理和自我反思能力的新框架

  • 提出 AutoDrive-R²,一种增强自动驾驶 VLA(Vision-Language-Action)模型推理和自我反思能力的新框架
  • 解决现有 VLA 方法在轨迹生成中存在的两个关键问题:物理不可行的输出和复杂驾驶场景下推理能力不足
  • 通过链式思维(CoT)处理与强化学习(RL)相结合,实现可解释且物理可行的轨迹规划
Card 01 研究单位

研究单位

  • AMAP, Alibaba Group(阿里巴巴集团旗下高德地图)
  • University of Queensland(昆士兰大学)
  • Lanzhou University(兰州大学)
  • Case Western Reserve University(凯斯西储大学)
Card 02 论文概述

论文概述

  • 提出 AutoDrive-R²,一种增强自动驾驶 VLA(Vision-Language-Action)模型推理和自我反思能力的新框架
  • 解决现有 VLA 方法在轨迹生成中存在的两个关键问题:物理不可行的输出和复杂驾驶场景下推理能力不足
  • 通过链式思维(CoT)处理与强化学习(RL)相结合,实现可解释且物理可行的轨迹规划
Card 03 核心贡献

核心贡献

  • 提出 AutoDrive-R² 框架,实现从视觉信息和语言指令中进行语义推理、自我反思和轨迹规划
  • 构建 nuScenesR²-6K 数据集,采用四步逻辑链(可视化→计算→逻辑→反思)并包含自我反思验证机制
  • 基于 GRPO(Group Relative Policy Optimization) 的强化学习后训练方法,融入物理约束的奖励框架
  • 提出物理基础的奖励函数,整合空间对齐、车辆动力学和时间平滑性三个维度
  • 在 nuScenes 和 Waymo 数据集上实现 SOTA 性能,并展现强大的零样本泛化能力
Card 04 方法描述

方法描述

  • 两阶段训练流程

- 第一阶段(SFT):使用 nuScenesR²-6K 数据集进行监督微调,建立输入信息与输出轨迹之间的认知桥梁

- 第二阶段(RL):采用 GRPO 算法进行强化学习优化,无需价值网络,通过组内相对比较机制降低计算开销

  • 四步 CoT 推理链:图像驱动分析 → 物理计算 → 情境逻辑综合 → 自我反思验证
  • 物理基础奖励框架

- 空间对齐奖励(r_pos):预测轨迹与真值轨迹的欧氏距离

- 转向角约束(r_ste):确保运动学可行性

- 速度约束(r_vel):避免不合理的加减速模式

- 时间平滑性(r_tem):惩罚控制信号的剧烈变化

Card 05 数据集与资源

数据集与资源

  • 训练数据集nuScenesR²-6K(6,000 个图像-轨迹样本对,3 秒轨迹规划,0.5 秒间隔)
  • 评估数据集nuScenes(1,000 城市场景)和 Waymo(4,021 驾驶片段)
  • 基础模型Qwen2.5-VL-3BQwen2.5-VL-7B
  • 训练配置:学习率 5e-7,批次大小 1,GRPO 每输入采样 6 个响应,最大完成长度 4,096 tokens
Card 06 评估与结果

评估与结果

  • 评估指标:L2 距离(1s、2s、3s 及平均误差,单位:米)
  • nuScenes 结果AutoDrive-R² 7B 达到 0.13m(1s)、0.19m(2s)、0.25m(3s)、0.19m(平均),超越 EMMA+ 等现有方法
  • Waymo 零样本结果:平均 L2 误差 0.20m,相比 EMMA+ 降低 33.3%,相比 Qwen2-VL-72B 降低 90.7%
  • 模型规模分析:7B 模型最优(0.19m),3B 模型通过两阶段框架仍达 0.49m,显著优于基线
  • 消融实验

- 纯 RL 训练效果(0.33m)劣于 SFT+RL 两阶段(0.19m),验证冷启动必要性

- 移除四步推理结构导致 31.5% 性能下降,移除自我反思导致 21.1% 下降

- 各物理奖励组件均为必要,移除空间对齐惩罚导致误差升至 0.53m