提出了 UniDriveVLA，一个基于混合专家架构的统一自动驾驶视觉-语言-动作（VLA）模型。

论文详情

UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving

2026-04-02 · 原文 · 翻译 · 2604.02190

提出了 UniDriveVLA，一个基于混合专家架构的统一自动驾驶视觉-语言-动作（VLA）模型。解决了现有 VLA 模型中空间感知与语义推理之间的优化冲突，现有方法往往在增强 3D 空间感知时牺牲了 VLM 的原生推理能力。核心思想是通过 Mixture-of-Transformers 架构将驾驶理解、场景感知和动作规划任务解耦为三个独立的专家网络，避免参数空间内的特征干扰。

5 分钟读完 6 张阅读卡 Huazhong University of Science and Technology

一眼看懂封面预览

提出了 UniDriveVLA，一个基于混合专家架构的统一自动驾驶视觉-语言-动作（VLA）模型。

提出了 UniDriveVLA，一个基于混合专家架构的统一自动驾驶视觉-语言-动作（VLA）模型。
解决了现有 VLA 模型中空间感知与语义推理之间的优化冲突，现有方法往往在增强 3D 空间感知时牺牲了 VLM 的原生推理能力。
核心思想是通过 Mixture-of-Transformers 架构将驾驶理解、场景感知和动作规划任务解耦为三个独立的专家网络，避免参数空间内…

Card 01 研究单位

研究单位

Huazhong University of Science and Technology
Xiaomi EV
SKL-IOTSC, University of Macau

Card 02 论文概述

论文概述

提出了 UniDriveVLA，一个基于混合专家架构的统一自动驾驶视觉-语言-动作（VLA）模型。
解决了现有 VLA 模型中空间感知与语义推理之间的优化冲突，现有方法往往在增强 3D 空间感知时牺牲了 VLM 的原生推理能力。
核心思想是通过 Mixture-of-Transformers 架构将驾驶理解、场景感知和动作规划任务解耦为三个独立的专家网络，避免参数空间内的特征干扰。

Card 03 核心贡献

核心贡献

提出了基于 Mixture-of-Transformers 的统一架构，通过专家解耦机制缓解了空间感知与语义推理之间的冲突。
引入了稀疏感知范式，直接从 2D VLM 特征中提取空间先验，并设计了三阶段渐进式训练策略，在提升感知能力的同时保留了模型的语义推理能力。
在 nuScenes 开环评估和 Bench2Drive 闭环评估中均取得了 SOTA 性能，并在 3D 检测、在线建图等多种任务上表现出广泛的适用性。

Card 04 方法描述

方法描述

模型架构包含三个专家模块：理解专家（负责语义推理）、感知专家（负责空间感知）、动作专家（负责轨迹规划）。
采用 Masked Joint Attention 机制控制专家间的信息流，理解专家保持因果掩码以保护 VLM 原生能力，感知和动作专家聚合语义与空间信息。
利用统一查询驱动机制从多视图图像特征中提取稀疏空间感知结果（检测、建图、运动预测等），避免了密集 BEV 表示带来的干扰。
实施三阶段训练策略：第一阶段锚定语义能力，第二阶段引入感知和规划监督，第三阶段冻结 VLM 并微调感知与动作专家。

Card 05 数据集与资源

数据集与资源

主要数据集包括 nuScenes（用于开环规划与感知评估）和 Bench2Drive（用于闭环驾驶评估）。
模型基于 Qwen3-VL 构建，提供了 UniDriveVLA-Base（Qwen3-VL-2B）和 UniDriveVLA-Large（Qwen3-VL-8B）两个版本。
输入图像尺寸调整为 960x544，训练过程中使用了 LoRA 技术和 EMA 策略。

Card 06 评估与结果

评估与结果

在 Bench2Drive 基准上，UniDriveVLA 在非 PDM-Lite 训练的方法中取得了最高的 Driving Score (78.37) 和最高的 Efficiency (198.86)。
在驾驶技能评估中，模型在 Merging (38.75%) 和 Overtaking (80.00%) 场景表现最佳，平均能力得分达到 51.53%。
在 nuScenes 开环规划任务中，UniDriveVLA-Large 在 ST-P3 协议下的平均碰撞率低至 0.10%，表现优于同类 VLA 方法。