返回列表 VLA / Vision-Language-Action 每日论文卡
OneDrive: Unified Multi-Paradigm Driving with Vision-Language-Action Models
提出 OneDrive,首个基于预训练视觉-语言模型(VLM)的统一多范式自动驾驶框架,在单一Transformer解码器内同时支持自回归文本…

论文详情

OneDrive: Unified Multi-Paradigm Driving with Vision-Language-Action Models

2026-04-20 · 原文 · 翻译 · 2604.17915

提出 OneDrive,首个基于预训练视觉-语言模型(VLM)的统一多范式自动驾驶框架,在单一Transformer解码器内同时支持自回归文本生成、并行感知检测和轨迹规划等异构解码行为 解决现有VLA(Vision-Language-Action)模型在自动驾驶中面临的架构碎片化问题:传统方法使用分离或级联解码器导致预训练权重无法共享、任务间信息流动受限

7 分钟读完 6 张阅读卡 State Key Laboratory of Multimodal Artificial Intel…
一眼看懂 封面预览

提出 OneDrive,首个基于预训练视觉-语言模型(VLM)的统一多范式自动驾驶框架,在单一Transformer解码器内同时支持自回归文本…

  • 提出 OneDrive,首个基于预训练视觉-语言模型(VLM)的统一多范式自动驾驶框架,在单一Transformer解码器内同时支持自回归文本…
  • 解决现有VLA(Vision-Language-Action)模型在自动驾驶中面临的架构碎片化问题:传统方法使用分离或级联解码器导致预训练权重…
  • 揭示预训练VLM的因果注意力机制具有强迁移能力,可适配查询-视觉关系建模,而前馈网络(FFN)难以迁移,为统一架构设计提供关键洞察
Card 01 研究单位

研究单位

  • State Key Laboratory of Multimodal Artificial Intelligence Systems, CASIA(中国科学院自动化研究所多模态人工智能系统全国重点实验室)
  • School of Artificial Intelligence, University of Chinese Academy of Sciences(中国科学院大学人工智能学院)
  • AutoLab, School of Artificial Intelligence, Shanghai Jiao Tong University(上海交通大学人工智能学院AutoLab)
  • Voyager Research, Didi Chuxing(滴滴出行Voyager Research)
  • School of Information Science and Technology, ShanghaiTech University(上海科技大学信息科学与技术学院)
Card 02 论文概述

论文概述

  • 提出 OneDrive,首个基于预训练视觉-语言模型(VLM)的统一多范式自动驾驶框架,在单一Transformer解码器内同时支持自回归文本生成、并行感知检测和轨迹规划等异构解码行为
  • 解决现有VLA(Vision-Language-Action)模型在自动驾驶中面临的架构碎片化问题:传统方法使用分离或级联解码器导致预训练权重无法共享、任务间信息流动受限
Card 03 核心贡献

核心贡献

  • 揭示预训练VLM的因果注意力机制具有强迁移能力,可适配查询-视觉关系建模,而前馈网络(FFN)难以迁移,为统一架构设计提供关键洞察
  • 提出混合解码器层(Mixed Decoder Layers):在浅层保留预训练因果注意力,仅添加任务特定的查询自注意力和FFN,实现文本生成与结构化预测的共享骨干
  • 设计统一token表示:将图像token、结构化查询(检测/车道/规划)和文本token拼接为统一序列,通过因果注意力实现跨模态条件建模
  • 实现高效推理模式:截断推理仅前向浅层,延迟降低约40%(264ms→156ms),同时保持多模态生成能力
  • 在nuScenes开环评估和NAVSIM闭环评估上取得SOTA性能
Card 04 方法描述

方法描述

  • 统一token序列:Z = [X_img, Q_det, Q_lane, Q_plan, X_text],所有token共享预训练因果注意力
  • 3D位置编码:对图像token和结构化查询在RoPE后添加3D位置嵌入,增强空间建模
  • 查询自注意力:在感知查询间添加额外的SelfAttn_q,支持并行检测和车道估计
  • 任务特定FFN:为检测、车道、规划任务分别配置FFN_t,替换预训练FFN
  • 三阶段训练策略:(1)感知-语言预训练 →(2)规划适配 →(3)联合微调,逐步激活各模块
Card 05 数据集与资源

数据集与资源

  • nuScenes:1000个城市场景,700训练/150验证/150测试,使用6路环视相机,评估3D检测(NDS/mAP)、开环规划(L2误差、碰撞率)
  • NAVSIM:基于nuPlan的闭环规划基准,1,192训练场景/136测试场景,评估PDMS综合得分
  • OmniDrive扩展:nuScenes的QA风格标注,增强语言和推理信号
  • 模型规模:InternVL3-1B(nuScenes)、InternVL3-2B(NAVSIM,从ReCogDrive初始化)
  • 训练资源:64× NVIDIA H20 GPU,批次大小64(nuScenes)或128(NAVSIM),学习率1×10⁻⁴
Card 06 评估与结果

评估与结果

  • nuScenes开环评估:平均L2误差0.28m(最优),平均碰撞率0.18%(最优),优于SOLVE-E2E(0.31m/0.30%)和ColaVLA(0.30m/0.23%)
  • NAVSIM闭环评估:PDMS得分86.8,超越ReCogDrive(85.0)、AutoVLA(80.5)等VLA方法,接近DiffusionDrive(88.1)等专用规划器
  • 文本能力保持:与OmniDrive-7B相比,文本条件规划平均L2误差0.32m vs 0.33m,语言生成能力不降级
  • 文本监督消融:联合训练文本损失可轻微提升感知(NDS 32.31→33.94)和规划安全性(碰撞率0.40%→0.36%)
  • 推理延迟:完整模型264ms,截断推理156ms(仅前6层),降低40%同时保持规划性能