一眼看懂
封面预览
提出 AutoDrive-R²,一种增强自动驾驶 VLA(Vision-Language-Action)模型推理和自我反思能力的新框架
- 提出 AutoDrive-R²,一种增强自动驾驶 VLA(Vision-Language-Action)模型推理和自我反思能力的新框架
- 解决现有 VLA 方法在轨迹生成中存在的两个关键问题:物理不可行的输出和复杂驾驶场景下推理能力不足
- 通过链式思维(CoT)处理与强化学习(RL)相结合,实现可解释且物理可行的轨迹规划
Card 01
研究单位
研究单位
- AMAP, Alibaba Group(阿里巴巴集团旗下高德地图)
- University of Queensland(昆士兰大学)
- Lanzhou University(兰州大学)
- Case Western Reserve University(凯斯西储大学)
Card 02
论文概述
论文概述
- 提出 AutoDrive-R²,一种增强自动驾驶 VLA(Vision-Language-Action)模型推理和自我反思能力的新框架
- 解决现有 VLA 方法在轨迹生成中存在的两个关键问题:物理不可行的输出和复杂驾驶场景下推理能力不足
- 通过链式思维(CoT)处理与强化学习(RL)相结合,实现可解释且物理可行的轨迹规划
Card 03
核心贡献
核心贡献
- 提出 AutoDrive-R² 框架,实现从视觉信息和语言指令中进行语义推理、自我反思和轨迹规划
- 构建 nuScenesR²-6K 数据集,采用四步逻辑链(可视化→计算→逻辑→反思)并包含自我反思验证机制
- 基于 GRPO(Group Relative Policy Optimization) 的强化学习后训练方法,融入物理约束的奖励框架
- 提出物理基础的奖励函数,整合空间对齐、车辆动力学和时间平滑性三个维度
- 在 nuScenes 和 Waymo 数据集上实现 SOTA 性能,并展现强大的零样本泛化能力
Card 04
方法描述
方法描述
- 两阶段训练流程:
- 第一阶段(SFT):使用 nuScenesR²-6K 数据集进行监督微调,建立输入信息与输出轨迹之间的认知桥梁
- 第二阶段(RL):采用 GRPO 算法进行强化学习优化,无需价值网络,通过组内相对比较机制降低计算开销
- 四步 CoT 推理链:图像驱动分析 → 物理计算 → 情境逻辑综合 → 自我反思验证
- 物理基础奖励框架:
- 空间对齐奖励(r_pos):预测轨迹与真值轨迹的欧氏距离
- 转向角约束(r_ste):确保运动学可行性
- 速度约束(r_vel):避免不合理的加减速模式
- 时间平滑性(r_tem):惩罚控制信号的剧烈变化
Card 05
数据集与资源
数据集与资源
- 训练数据集:nuScenesR²-6K(6,000 个图像-轨迹样本对,3 秒轨迹规划,0.5 秒间隔)
- 评估数据集:nuScenes(1,000 城市场景)和 Waymo(4,021 驾驶片段)
- 基础模型:Qwen2.5-VL-3B 和 Qwen2.5-VL-7B
- 训练配置:学习率 5e-7,批次大小 1,GRPO 每输入采样 6 个响应,最大完成长度 4,096 tokens
Card 06
评估与结果
评估与结果
- 评估指标:L2 距离(1s、2s、3s 及平均误差,单位:米)
- nuScenes 结果:AutoDrive-R² 7B 达到 0.13m(1s)、0.19m(2s)、0.25m(3s)、0.19m(平均),超越 EMMA+ 等现有方法
- Waymo 零样本结果:平均 L2 误差 0.20m,相比 EMMA+ 降低 33.3%,相比 Qwen2-VL-72B 降低 90.7%
- 模型规模分析:7B 模型最优(0.19m),3B 模型通过两阶段框架仍达 0.49m,显著优于基线
- 消融实验:
- 纯 RL 训练效果(0.33m)劣于 SFT+RL 两阶段(0.19m),验证冷启动必要性
- 移除四步推理结构导致 31.5% 性能下降,移除自我反思导致 21.1% 下降
- 各物理奖励组件均为必要,移除空间对齐惩罚导致误差升至 0.53m