DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving

论文详情

DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving

2025-05-22 · 原文 · 翻译 · 2505.16278

论文提出了 DriveMoE，一个用于端到端自动驾驶（E2E-AD）的混合专家框架，旨在解决多视图视觉数据冗余和单一策略难以处理多样化驾驶场景的问题。该框架建立在适配于自动驾驶领域的 Drive-$\pi_0$ 基线模型之上，引入了场景专用视觉 MoE 和技能专用动作 MoE。核心目标是模仿人类驾驶员的认知机制，通过动态选择关键视觉信息和激活特定驾驶技能专家，提高计算效率并增强对罕见驾驶行为的处理能力。

5 分钟读完 6 张阅读卡上海交通大学（计算机科学与人工智能学院）

一眼看懂封面预览

论文提出了 DriveMoE，一个用于端到端自动驾驶（E2E-AD）的混合专家框架，旨在解决多视图视觉数据冗余和单一策略难以处理多样化驾驶场景…

论文提出了 DriveMoE，一个用于端到端自动驾驶（E2E-AD）的混合专家框架，旨在解决多视图视觉数据冗余和单一策略难以处理多样化驾驶场景…
该框架建立在适配于自动驾驶领域的 Drive-$\pi_0$ 基线模型之上，引入了场景专用视觉 MoE 和技能专用动作 MoE。
核心目标是模仿人类驾驶员的认知机制，通过动态选择关键视觉信息和激活特定驾驶技能专家，提高计算效率并增强对罕见驾驶行为的处理能力。

Card 01 研究单位

研究单位

上海交通大学（计算机科学与人工智能学院）
通讯作者同时隶属于 上海创新研究所

Card 02 论文概述

论文概述

论文提出了 DriveMoE，一个用于端到端自动驾驶（E2E-AD）的混合专家框架，旨在解决多视图视觉数据冗余和单一策略难以处理多样化驾驶场景的问题。
该框架建立在适配于自动驾驶领域的 Drive-$\pi_0$ 基线模型之上，引入了 场景专用视觉 MoE 和 技能专用动作 MoE。
核心目标是模仿人类驾驶员的认知机制，通过动态选择关键视觉信息和激活特定驾驶技能专家，提高计算效率并增强对罕见驾驶行为的处理能力。

Card 03 核心贡献

核心贡献

将具身智能领域的 VLA 基础模型 $\pi_0$ 扩展至自动驾驶领域，构建了 Drive-$\pi_0$ 基线框架。
提出了 Scene-Specialized Vision MoE，通过动态选择相关摄像头视图来减少视觉标记冗余，模拟人类注意力机制。
提出了 Skill-Specialized Action MoE，在流匹配规划器中激活针对特定驾驶行为（如超车、急转弯）的专家模块，避免行为模式平均化。
在 Bench2Drive 闭环仿真基准上取得了 SOTA 性能，显著提升了对罕见驾驶行为的鲁棒性。

Card 04 方法描述

方法描述

基线模型 Drive-$\pi_0$ 采用 Paligemma VLM 作为骨干网络，结合流匹配动作模块生成未来轨迹。
Scene-Specialized Vision MoE：设计轻量级路由器，根据前视图嵌入和目标航点计算概率分布，动态选择相关摄像头视图，并仅处理选定视图以降低计算量。
Skill-Specialized Action MoE：将解码器中的前馈网络（FFN）替换为混合专家层，包含共享和非共享专家。通过路由器稀疏激活（Top-1 或 Top-2）特定专家以处理不同驾驶技能。
两阶段训练：第一阶段使用真实标签训练路由器，第二阶段转换为自适应训练以增强泛化能力。

Card 05 数据集与资源

数据集与资源

使用 Bench2Drive 数据集进行训练和评估，该数据集基于 CARLA 仿真器（版本 0.9.15.1）。
实验使用了官方训练集的基础子集（1000个片段，950个训练，50个验证）。
额外标注了摄像头视图重要性标签，并使用了数据集原有的驾驶技能标签（Merging, Overtaking, Emergency Brake, Give Way, Traffic Sign）。

Card 06 评估与结果

评估与结果

在 Bench2Drive 官方 220 条路线的闭环评估环境中进行测试。
主要评估指标包括 Driving Score (DS)、Success Rate (SR)、Efficiency 和 Comfort。
实验结果表明，DriveMoE 达到了 State-of-the-Art (SOTA) 水平，在多样化驾驶技能评估中表现出色，有效解决了多视图冗余和罕见场景处理难题。