返回列表 VLA / Vision-Language-Action 每日论文卡

AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning

论文详情

AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning

2025-06-16 · 原文 · 翻译 · 2506.13757

论文提出了 AutoVLA,一种用于端到端自动驾驶的视觉-语言-动作(VLA)模型,旨在解决现有模型在动作可行性、结构复杂性和推理灵活性方面的不足。 该模型将连续轨迹离散化为物理动作标记,统一了推理和动作生成,支持“快思考”(直接轨迹生成)和“慢思考”(思维链推理)两种模式。 通过引入基于强化学习的微调方法,模型实现了自适应推理,在简单场景中减少冗余推理以提高效率,在复杂场景中保持高规划性能。

5 分钟读完 6 张阅读卡 University of California, Los Angeles
一眼看懂 封面预览

论文提出了 AutoVLA,一种用于端到端自动驾驶的视觉-语言-动作(VLA)模型,旨在解决现有模型在动作可行性、结构复杂性和推理灵活性方面的…

  • 论文提出了 AutoVLA,一种用于端到端自动驾驶的视觉-语言-动作(VLA)模型,旨在解决现有模型在动作可行性、结构复杂性和推理灵活性方面的…
  • 该模型将连续轨迹离散化为物理动作标记,统一了推理和动作生成,支持“快思考”(直接轨迹生成)和“慢思考”(思维链推理)两种模式。
  • 通过引入基于强化学习的微调方法,模型实现了自适应推理,在简单场景中减少冗余推理以提高效率,在复杂场景中保持高规划性能。
Card 01 研究单位

研究单位

  • University of California, Los Angeles
Card 02 论文概述

论文概述

  • 论文提出了 AutoVLA,一种用于端到端自动驾驶的视觉-语言-动作(VLA)模型,旨在解决现有模型在动作可行性、结构复杂性和推理灵活性方面的不足。
  • 该模型将连续轨迹离散化为物理动作标记,统一了推理和动作生成,支持“快思考”(直接轨迹生成)和“慢思考”(思维链推理)两种模式。
  • 通过引入基于强化学习的微调方法,模型实现了自适应推理,在简单场景中减少冗余推理以提高效率,在复杂场景中保持高规划性能。
Card 03 核心贡献

核心贡献

  • 提出了 AutoVLA 框架,将物理动作标记集成到预训练的视觉语言模型中,实现了从原始视觉输入和语言指令到可行轨迹的直接策略学习。
  • 提出了一种基于 Group Relative Policy Optimization (GRPO) 的强化微调方法,使模型具备自适应推理能力,优化了规划性能和运行效率。
  • 在多个自动驾驶基准测试中实现了领先的性能,验证了模型在开环和闭环测试中的有效性。
Card 04 方法描述

方法描述

  • 模型以 Qwen2.5-VL-3B 为骨干网络,输入多视角相机数据、导航指令和车辆状态,输出离散的动作标记。
  • 提出了一种基于 K-disk 聚类 的动作标记化方法,构建了包含 2048 个离散动作标记的码本,每个标记代表 0.5 秒的物理可行车辆运动。
  • 训练分为两个阶段:监督微调(SFT)利用轨迹数据和从 Qwen2.5-VL-72B 蒸馏的思维链数据进行训练;强化微调(RFT)使用包含驾驶奖励和推理长度惩罚的奖励函数来优化模型。
Card 05 数据集与资源

数据集与资源

  • 使用的数据集包括 nuPlan (Open-Scene)Waymo End-to-EndnuScenesCARLA-Garage,以及 DriveLM 数据集用于推理数据增强。
  • 模型骨干参数量为 3B(Qwen2.5-VL-3B)。
  • 训练资源使用 8 张 NVIDIA L40S GPU
Card 06 评估与结果

评估与结果

  • 评估基准包括 NAVSIM (nuPlan)nuScenesWaymo E2EBench2Drive (CARLA)
  • 主要评估指标包括 PDMSL2 距离碰撞率Rater Feedback Score (RFS) 以及闭环测试中的 Driving ScoreSuccess Rate
  • NAVSIM 基准上,RFT 将 PDMS 从 80.54 提升至 89.11,并将运行时间减少了 66.8%;在 Bench2Drive 闭环测试中,AutoVLA 取得了最高的驾驶分数(78.84)和成功率(57.73%)。
  • 消融实验表明,提出的 K-disk 动作标记化方法在重建精度和规划性能上优于 RT-1FAST 等现有方法。