返回列表 VLA / Vision-Language-Action 每日论文卡
DeeAD: Dynamic Early Exit of Vision-Language Action for Efficient Autonomous Driving
提出 DeeAD,一个无需训练的动作引导早退出框架,用于加速自动驾驶中的视觉-语言-动作(VLA)模型推理

论文详情

DeeAD: Dynamic Early Exit of Vision-Language Action for Efficient Autonomous Driving

2025-11-25 · 原文 · 翻译 · 2511.20720

提出 DeeAD,一个无需训练的动作引导早退出框架,用于加速自动驾驶中的视觉-语言-动作(VLA)模型推理 解决 VLA 模型因深层 transformer 堆栈导致的显著推理延迟问题,延迟可达数百毫秒 核心思路:当预测轨迹与轻量级规划先验(如导航路线或低精度规划)在可容忍偏差范围内(≤2米)对齐时,提前终止推理

5 分钟读完 6 张阅读卡 香港城市大学(City University of Hongkong),香港,中国
一眼看懂 封面预览

提出 DeeAD,一个无需训练的动作引导早退出框架,用于加速自动驾驶中的视觉-语言-动作(VLA)模型推理

  • 提出 DeeAD,一个无需训练的动作引导早退出框架,用于加速自动驾驶中的视觉-语言-动作(VLA)模型推理
  • 解决 VLA 模型因深层 transformer 堆栈导致的显著推理延迟问题,延迟可达数百毫秒
  • 核心思路:当预测轨迹与轻量级规划先验(如导航路线或低精度规划)在可容忍偏差范围内(≤2米)对齐时,提前终止推理
Card 01 研究单位

研究单位

  • 香港城市大学(City University of Hongkong),香港,中国

- Haibo Hu、Lianming Huang、Nan Guan

  • 穆罕默德·本·扎耶德人工智能大学(Mohamed bin Zayed University of Artificial Intelligence),阿布扎比,阿联酋

- Chun Jason Xue

Card 02 论文概述

论文概述

  • 提出 DeeAD,一个无需训练的动作引导早退出框架,用于加速自动驾驶中的视觉-语言-动作(VLA)模型推理
  • 解决 VLA 模型因深层 transformer 堆栈导致的显著推理延迟问题,延迟可达数百毫秒
  • 核心思路:当预测轨迹与轻量级规划先验(如导航路线或低精度规划)在可容忍偏差范围内(≤2米)对齐时,提前终止推理
Card 03 核心贡献

核心贡献

  • 提出物理意义驱动的动态早退出机制,当中间轨迹与导航先验的空间偏差在可接受范围内时终止推理,实现无需训练、可解释且动作对齐的加速
  • 设计两个轻量级组件:(1)差异度估计器,以极低代价测量预测轨迹与参考轨迹的空间对齐程度;(2)多跳退出控制器,根据偏差幅度自适应跳过冗余层,大幅降低延迟开销
  • 将 DeeAD 集成到 ORION VLA 框架中,在 Bench2Drive 上实现高达 28% 的 transformer 层稀疏度29% 的延迟降低
Card 04 方法描述

方法描述

  • 早退出动作头(Early Exit Action Head):在选定的 transformer 层提取部分轨迹,无需重新训练即可从任意层解码中间表示
  • 差异度估计(Dissimilarity Estimation):使用 L2 距离计算预测轨迹与参考轨迹(如 CARLA 导航路点)的空间偏差,当偏差小于阈值 δ 时触发早退出
  • 多跳退出控制器:根据当前偏差与阈值 δ 的比例动态选择跳跃步长(s=1,2,4,8),实现从粗到细的层间搜索
Card 05 数据集与资源

数据集与资源

  • 数据集:Bench2Drive 基准测试(CARLA 模拟器),包含 1,000+ 训练场景和 220 个验证场景
  • 模型:ORION VLA 模型(QT-Former 主干 + BEV 编码器 + 轨迹生成器)
  • 硬件平台:双路 Intel Xeon Silver 4314 CPU(32 核)、512GB RAM、2×NVIDIA L20 GPU(40GB)
  • 容忍度参数:δ = 0.5m / 1.0m / 2.0m 三档可调
Card 06 评估与结果

评估与结果

在 Bench2Drive 开环评估中的主要结果:

  • ORION + DeeAD (δ=0.5m):21.3% 稀疏度,322ms 延迟,L2=0.58m,碰撞率=0.42%(质量反而提升)
  • ORION + DeeAD (δ=1.0m):24.8% 稀疏度,311ms 延迟(18% 降低),L2=0.93m,碰撞率=0.44%
  • ORION + DeeAD (δ=2.0m):28.0% 稀疏度,270ms 延迟(29% 降低),L2=1.13m,碰撞率=0.45%
  • 始终优于基于置信度的 Fixed-EE 基线(25% 稀疏度下 L2=1.63m,碰撞率=1.32%)