AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning

论文详情

AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning

2025-06-16 · 原文 · 翻译 · 2506.13757

论文提出了 AutoVLA，一种用于端到端自动驾驶的视觉-语言-动作（VLA）模型，旨在解决现有模型在动作可行性、结构复杂性和推理灵活性方面的不足。该模型将连续轨迹离散化为物理动作标记，统一了推理和动作生成，支持“快思考”（直接轨迹生成）和“慢思考”（思维链推理）两种模式。通过引入基于强化学习的微调方法，模型实现了自适应推理，在简单场景中减少冗余推理以提高效率，在复杂场景中保持高规划性能。

5 分钟读完 6 张阅读卡 University of California, Los Angeles

一眼看懂封面预览

论文提出了 AutoVLA，一种用于端到端自动驾驶的视觉-语言-动作（VLA）模型，旨在解决现有模型在动作可行性、结构复杂性和推理灵活性方面的…

论文提出了 AutoVLA，一种用于端到端自动驾驶的视觉-语言-动作（VLA）模型，旨在解决现有模型在动作可行性、结构复杂性和推理灵活性方面的…
该模型将连续轨迹离散化为物理动作标记，统一了推理和动作生成，支持“快思考”（直接轨迹生成）和“慢思考”（思维链推理）两种模式。
通过引入基于强化学习的微调方法，模型实现了自适应推理，在简单场景中减少冗余推理以提高效率，在复杂场景中保持高规划性能。

Card 01 研究单位

研究单位

University of California, Los Angeles

Card 02 论文概述

论文概述

论文提出了 AutoVLA，一种用于端到端自动驾驶的视觉-语言-动作（VLA）模型，旨在解决现有模型在动作可行性、结构复杂性和推理灵活性方面的不足。
该模型将连续轨迹离散化为物理动作标记，统一了推理和动作生成，支持“快思考”（直接轨迹生成）和“慢思考”（思维链推理）两种模式。
通过引入基于强化学习的微调方法，模型实现了自适应推理，在简单场景中减少冗余推理以提高效率，在复杂场景中保持高规划性能。

Card 03 核心贡献

核心贡献

提出了 AutoVLA 框架，将物理动作标记集成到预训练的视觉语言模型中，实现了从原始视觉输入和语言指令到可行轨迹的直接策略学习。
提出了一种基于 Group Relative Policy Optimization (GRPO) 的强化微调方法，使模型具备自适应推理能力，优化了规划性能和运行效率。
在多个自动驾驶基准测试中实现了领先的性能，验证了模型在开环和闭环测试中的有效性。

Card 04 方法描述

方法描述

模型以 Qwen2.5-VL-3B 为骨干网络，输入多视角相机数据、导航指令和车辆状态，输出离散的动作标记。
提出了一种基于 K-disk 聚类 的动作标记化方法，构建了包含 2048 个离散动作标记的码本，每个标记代表 0.5 秒的物理可行车辆运动。
训练分为两个阶段：监督微调（SFT）利用轨迹数据和从 Qwen2.5-VL-72B 蒸馏的思维链数据进行训练；强化微调（RFT）使用包含驾驶奖励和推理长度惩罚的奖励函数来优化模型。

Card 05 数据集与资源

数据集与资源

使用的数据集包括 nuPlan (Open-Scene)、Waymo End-to-End、nuScenes 和 CARLA-Garage，以及 DriveLM 数据集用于推理数据增强。
模型骨干参数量为 3B（Qwen2.5-VL-3B）。
训练资源使用 8 张 NVIDIA L40S GPU。

Card 06 评估与结果

评估与结果

评估基准包括 NAVSIM (nuPlan)、nuScenes、Waymo E2E 和 Bench2Drive (CARLA)。
主要评估指标包括 PDMS、L2 距离、碰撞率、Rater Feedback Score (RFS) 以及闭环测试中的 Driving Score 和 Success Rate。
在 NAVSIM 基准上，RFT 将 PDMS 从 80.54 提升至 89.11，并将运行时间减少了 66.8%；在 Bench2Drive 闭环测试中，AutoVLA 取得了最高的驾驶分数（78.84）和成功率（57.73%）。
消融实验表明，提出的 K-disk 动作标记化方法在重建精度和规划性能上优于 RT-1 和 FAST 等现有方法。