返回列表 VLA / Vision-Language-Action 每日论文卡
UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving
提出了 UniDriveVLA,一个基于混合专家架构的统一自动驾驶视觉-语言-动作(VLA)模型。

论文详情

UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving

2026-04-02 · 原文 · 翻译 · 2604.02190

提出了 UniDriveVLA,一个基于混合专家架构的统一自动驾驶视觉-语言-动作(VLA)模型。 解决了现有 VLA 模型中空间感知与语义推理之间的优化冲突,现有方法往往在增强 3D 空间感知时牺牲了 VLM 的原生推理能力。 核心思想是通过 Mixture-of-Transformers 架构将驾驶理解、场景感知和动作规划任务解耦为三个独立的专家网络,避免参数空间内的特征干扰。

5 分钟读完 6 张阅读卡 Huazhong University of Science and Technology
一眼看懂 封面预览

提出了 UniDriveVLA,一个基于混合专家架构的统一自动驾驶视觉-语言-动作(VLA)模型。

  • 提出了 UniDriveVLA,一个基于混合专家架构的统一自动驾驶视觉-语言-动作(VLA)模型。
  • 解决了现有 VLA 模型中空间感知与语义推理之间的优化冲突,现有方法往往在增强 3D 空间感知时牺牲了 VLM 的原生推理能力。
  • 核心思想是通过 Mixture-of-Transformers 架构将驾驶理解、场景感知和动作规划任务解耦为三个独立的专家网络,避免参数空间内…
Card 01 研究单位

研究单位

  • Huazhong University of Science and Technology
  • Xiaomi EV
  • SKL-IOTSC, University of Macau
Card 02 论文概述

论文概述

  • 提出了 UniDriveVLA,一个基于混合专家架构的统一自动驾驶视觉-语言-动作(VLA)模型。
  • 解决了现有 VLA 模型中空间感知与语义推理之间的优化冲突,现有方法往往在增强 3D 空间感知时牺牲了 VLM 的原生推理能力。
  • 核心思想是通过 Mixture-of-Transformers 架构将驾驶理解、场景感知和动作规划任务解耦为三个独立的专家网络,避免参数空间内的特征干扰。
Card 03 核心贡献

核心贡献

  • 提出了基于 Mixture-of-Transformers 的统一架构,通过专家解耦机制缓解了空间感知与语义推理之间的冲突。
  • 引入了稀疏感知范式,直接从 2D VLM 特征中提取空间先验,并设计了三阶段渐进式训练策略,在提升感知能力的同时保留了模型的语义推理能力。
  • nuScenes 开环评估和 Bench2Drive 闭环评估中均取得了 SOTA 性能,并在 3D 检测、在线建图等多种任务上表现出广泛的适用性。
Card 04 方法描述

方法描述

  • 模型架构包含三个专家模块:理解专家(负责语义推理)、感知专家(负责空间感知)、动作专家(负责轨迹规划)。
  • 采用 Masked Joint Attention 机制控制专家间的信息流,理解专家保持因果掩码以保护 VLM 原生能力,感知和动作专家聚合语义与空间信息。
  • 利用统一查询驱动机制从多视图图像特征中提取稀疏空间感知结果(检测、建图、运动预测等),避免了密集 BEV 表示带来的干扰。
  • 实施三阶段训练策略:第一阶段锚定语义能力,第二阶段引入感知和规划监督,第三阶段冻结 VLM 并微调感知与动作专家。
Card 05 数据集与资源

数据集与资源

  • 主要数据集包括 nuScenes(用于开环规划与感知评估)和 Bench2Drive(用于闭环驾驶评估)。
  • 模型基于 Qwen3-VL 构建,提供了 UniDriveVLA-Base(Qwen3-VL-2B)和 UniDriveVLA-Large(Qwen3-VL-8B)两个版本。
  • 输入图像尺寸调整为 960x544,训练过程中使用了 LoRA 技术和 EMA 策略。
Card 06 评估与结果

评估与结果

  • Bench2Drive 基准上,UniDriveVLA 在非 PDM-Lite 训练的方法中取得了最高的 Driving Score (78.37) 和最高的 Efficiency (198.86)。
  • 在驾驶技能评估中,模型在 Merging (38.75%) 和 Overtaking (80.00%) 场景表现最佳,平均能力得分达到 51.53%
  • nuScenes 开环规划任务中,UniDriveVLA-Large 在 ST-P3 协议下的平均碰撞率低至 0.10%,表现优于同类 VLA 方法。