一眼看懂
封面预览
论文提出了 AutoVLA,一种用于端到端自动驾驶的视觉-语言-动作(VLA)模型,旨在解决现有模型在动作可行性、结构复杂性和推理灵活性方面的…
- 论文提出了 AutoVLA,一种用于端到端自动驾驶的视觉-语言-动作(VLA)模型,旨在解决现有模型在动作可行性、结构复杂性和推理灵活性方面的…
- 该模型将连续轨迹离散化为物理动作标记,统一了推理和动作生成,支持“快思考”(直接轨迹生成)和“慢思考”(思维链推理)两种模式。
- 通过引入基于强化学习的微调方法,模型实现了自适应推理,在简单场景中减少冗余推理以提高效率,在复杂场景中保持高规划性能。
Card 01
研究单位
研究单位
- University of California, Los Angeles
Card 02
论文概述
论文概述
- 论文提出了 AutoVLA,一种用于端到端自动驾驶的视觉-语言-动作(VLA)模型,旨在解决现有模型在动作可行性、结构复杂性和推理灵活性方面的不足。
- 该模型将连续轨迹离散化为物理动作标记,统一了推理和动作生成,支持“快思考”(直接轨迹生成)和“慢思考”(思维链推理)两种模式。
- 通过引入基于强化学习的微调方法,模型实现了自适应推理,在简单场景中减少冗余推理以提高效率,在复杂场景中保持高规划性能。
Card 03
核心贡献
核心贡献
- 提出了 AutoVLA 框架,将物理动作标记集成到预训练的视觉语言模型中,实现了从原始视觉输入和语言指令到可行轨迹的直接策略学习。
- 提出了一种基于 Group Relative Policy Optimization (GRPO) 的强化微调方法,使模型具备自适应推理能力,优化了规划性能和运行效率。
- 在多个自动驾驶基准测试中实现了领先的性能,验证了模型在开环和闭环测试中的有效性。
Card 04
方法描述
方法描述
- 模型以 Qwen2.5-VL-3B 为骨干网络,输入多视角相机数据、导航指令和车辆状态,输出离散的动作标记。
- 提出了一种基于 K-disk 聚类 的动作标记化方法,构建了包含 2048 个离散动作标记的码本,每个标记代表 0.5 秒的物理可行车辆运动。
- 训练分为两个阶段:监督微调(SFT)利用轨迹数据和从 Qwen2.5-VL-72B 蒸馏的思维链数据进行训练;强化微调(RFT)使用包含驾驶奖励和推理长度惩罚的奖励函数来优化模型。
Card 05
数据集与资源
数据集与资源
- 使用的数据集包括 nuPlan (Open-Scene)、Waymo End-to-End、nuScenes 和 CARLA-Garage,以及 DriveLM 数据集用于推理数据增强。
- 模型骨干参数量为 3B(Qwen2.5-VL-3B)。
- 训练资源使用 8 张 NVIDIA L40S GPU。
Card 06
评估与结果
评估与结果
- 评估基准包括 NAVSIM (nuPlan)、nuScenes、Waymo E2E 和 Bench2Drive (CARLA)。
- 主要评估指标包括 PDMS、L2 距离、碰撞率、Rater Feedback Score (RFS) 以及闭环测试中的 Driving Score 和 Success Rate。
- 在 NAVSIM 基准上,RFT 将 PDMS 从 80.54 提升至 89.11,并将运行时间减少了 66.8%;在 Bench2Drive 闭环测试中,AutoVLA 取得了最高的驾驶分数(78.84)和成功率(57.73%)。
- 消融实验表明,提出的 K-disk 动作标记化方法在重建精度和规划性能上优于 RT-1 和 FAST 等现有方法。