提出 OneDrive，首个基于预训练视觉-语言模型（VLM）的统一多范式自动驾驶框架，在单一Transformer解码器内同时支持自回归文本…

论文详情

OneDrive: Unified Multi-Paradigm Driving with Vision-Language-Action Models

2026-04-20 · 原文 · 翻译 · 2604.17915

提出 OneDrive，首个基于预训练视觉-语言模型（VLM）的统一多范式自动驾驶框架，在单一Transformer解码器内同时支持自回归文本生成、并行感知检测和轨迹规划等异构解码行为解决现有VLA（Vision-Language-Action）模型在自动驾驶中面临的架构碎片化问题：传统方法使用分离或级联解码器导致预训练权重无法共享、任务间信息流动受限

7 分钟读完 6 张阅读卡 State Key Laboratory of Multimodal Artificial Intel…

一眼看懂封面预览

提出 OneDrive，首个基于预训练视觉-语言模型（VLM）的统一多范式自动驾驶框架，在单一Transformer解码器内同时支持自回归文本…

提出 OneDrive，首个基于预训练视觉-语言模型（VLM）的统一多范式自动驾驶框架，在单一Transformer解码器内同时支持自回归文本…
解决现有VLA（Vision-Language-Action）模型在自动驾驶中面临的架构碎片化问题：传统方法使用分离或级联解码器导致预训练权重…
揭示预训练VLM的因果注意力机制具有强迁移能力，可适配查询-视觉关系建模，而前馈网络（FFN）难以迁移，为统一架构设计提供关键洞察

Card 01 研究单位

研究单位

State Key Laboratory of Multimodal Artificial Intelligence Systems, CASIA（中国科学院自动化研究所多模态人工智能系统全国重点实验室）
School of Artificial Intelligence, University of Chinese Academy of Sciences（中国科学院大学人工智能学院）
AutoLab, School of Artificial Intelligence, Shanghai Jiao Tong University（上海交通大学人工智能学院AutoLab）
Voyager Research, Didi Chuxing（滴滴出行Voyager Research）
School of Information Science and Technology, ShanghaiTech University（上海科技大学信息科学与技术学院）

Card 02 论文概述

论文概述

提出 OneDrive，首个基于预训练视觉-语言模型（VLM）的统一多范式自动驾驶框架，在单一Transformer解码器内同时支持自回归文本生成、并行感知检测和轨迹规划等异构解码行为
解决现有VLA（Vision-Language-Action）模型在自动驾驶中面临的架构碎片化问题：传统方法使用分离或级联解码器导致预训练权重无法共享、任务间信息流动受限

Card 03 核心贡献

核心贡献

揭示预训练VLM的因果注意力机制具有强迁移能力，可适配查询-视觉关系建模，而前馈网络（FFN）难以迁移，为统一架构设计提供关键洞察
提出混合解码器层（Mixed Decoder Layers）：在浅层保留预训练因果注意力，仅添加任务特定的查询自注意力和FFN，实现文本生成与结构化预测的共享骨干
设计统一token表示：将图像token、结构化查询（检测/车道/规划）和文本token拼接为统一序列，通过因果注意力实现跨模态条件建模
实现高效推理模式：截断推理仅前向浅层，延迟降低约40%（264ms→156ms），同时保持多模态生成能力
在nuScenes开环评估和NAVSIM闭环评估上取得SOTA性能

Card 04 方法描述

方法描述

统一token序列：Z = [X_img, Q_det, Q_lane, Q_plan, X_text]，所有token共享预训练因果注意力
3D位置编码：对图像token和结构化查询在RoPE后添加3D位置嵌入，增强空间建模
查询自注意力：在感知查询间添加额外的SelfAttn_q，支持并行检测和车道估计
任务特定FFN：为检测、车道、规划任务分别配置FFN_t，替换预训练FFN
三阶段训练策略：（1）感知-语言预训练 →（2）规划适配 →（3）联合微调，逐步激活各模块

Card 05 数据集与资源

数据集与资源

nuScenes：1000个城市场景，700训练/150验证/150测试，使用6路环视相机，评估3D检测（NDS/mAP）、开环规划（L2误差、碰撞率）
NAVSIM：基于nuPlan的闭环规划基准，1,192训练场景/136测试场景，评估PDMS综合得分
OmniDrive扩展：nuScenes的QA风格标注，增强语言和推理信号
模型规模：InternVL3-1B（nuScenes）、InternVL3-2B（NAVSIM，从ReCogDrive初始化）
训练资源：64× NVIDIA H20 GPU，批次大小64（nuScenes）或128（NAVSIM），学习率1×10⁻⁴

Card 06 评估与结果

评估与结果

nuScenes开环评估：平均L2误差0.28m（最优），平均碰撞率0.18%（最优），优于SOLVE-E2E（0.31m/0.30%）和ColaVLA（0.30m/0.23%）
NAVSIM闭环评估：PDMS得分86.8，超越ReCogDrive(85.0)、AutoVLA(80.5)等VLA方法，接近DiffusionDrive(88.1)等专用规划器
文本能力保持：与OmniDrive-7B相比，文本条件规划平均L2误差0.32m vs 0.33m，语言生成能力不降级
文本监督消融：联合训练文本损失可轻微提升感知（NDS 32.31→33.94）和规划安全性（碰撞率0.40%→0.36%）
推理延迟：完整模型264ms，截断推理156ms（仅前6层），降低40%同时保持规划性能