一眼看懂
封面预览
提出 DeeAD,一个无需训练的动作引导早退出框架,用于加速自动驾驶中的视觉-语言-动作(VLA)模型推理
- 提出 DeeAD,一个无需训练的动作引导早退出框架,用于加速自动驾驶中的视觉-语言-动作(VLA)模型推理
- 解决 VLA 模型因深层 transformer 堆栈导致的显著推理延迟问题,延迟可达数百毫秒
- 核心思路:当预测轨迹与轻量级规划先验(如导航路线或低精度规划)在可容忍偏差范围内(≤2米)对齐时,提前终止推理
Card 01
研究单位
研究单位
- 香港城市大学(City University of Hongkong),香港,中国
- Haibo Hu、Lianming Huang、Nan Guan
- 穆罕默德·本·扎耶德人工智能大学(Mohamed bin Zayed University of Artificial Intelligence),阿布扎比,阿联酋
- Chun Jason Xue
Card 02
论文概述
论文概述
- 提出 DeeAD,一个无需训练的动作引导早退出框架,用于加速自动驾驶中的视觉-语言-动作(VLA)模型推理
- 解决 VLA 模型因深层 transformer 堆栈导致的显著推理延迟问题,延迟可达数百毫秒
- 核心思路:当预测轨迹与轻量级规划先验(如导航路线或低精度规划)在可容忍偏差范围内(≤2米)对齐时,提前终止推理
Card 03
核心贡献
核心贡献
- 提出物理意义驱动的动态早退出机制,当中间轨迹与导航先验的空间偏差在可接受范围内时终止推理,实现无需训练、可解释且动作对齐的加速
- 设计两个轻量级组件:(1)差异度估计器,以极低代价测量预测轨迹与参考轨迹的空间对齐程度;(2)多跳退出控制器,根据偏差幅度自适应跳过冗余层,大幅降低延迟开销
- 将 DeeAD 集成到 ORION VLA 框架中,在 Bench2Drive 上实现高达 28% 的 transformer 层稀疏度 和 29% 的延迟降低
Card 04
方法描述
方法描述
- 早退出动作头(Early Exit Action Head):在选定的 transformer 层提取部分轨迹,无需重新训练即可从任意层解码中间表示
- 差异度估计(Dissimilarity Estimation):使用 L2 距离计算预测轨迹与参考轨迹(如 CARLA 导航路点)的空间偏差,当偏差小于阈值 δ 时触发早退出
- 多跳退出控制器:根据当前偏差与阈值 δ 的比例动态选择跳跃步长(s=1,2,4,8),实现从粗到细的层间搜索
Card 05
数据集与资源
数据集与资源
- 数据集:Bench2Drive 基准测试(CARLA 模拟器),包含 1,000+ 训练场景和 220 个验证场景
- 模型:ORION VLA 模型(QT-Former 主干 + BEV 编码器 + 轨迹生成器)
- 硬件平台:双路 Intel Xeon Silver 4314 CPU(32 核)、512GB RAM、2×NVIDIA L20 GPU(40GB)
- 容忍度参数:δ = 0.5m / 1.0m / 2.0m 三档可调
Card 06
评估与结果
评估与结果
在 Bench2Drive 开环评估中的主要结果:
- ORION + DeeAD (δ=0.5m):21.3% 稀疏度,322ms 延迟,L2=0.58m,碰撞率=0.42%(质量反而提升)
- ORION + DeeAD (δ=1.0m):24.8% 稀疏度,311ms 延迟(18% 降低),L2=0.93m,碰撞率=0.44%
- ORION + DeeAD (δ=2.0m):28.0% 稀疏度,270ms 延迟(29% 降低),L2=1.13m,碰撞率=0.45%
- 始终优于基于置信度的 Fixed-EE 基线(25% 稀疏度下 L2=1.63m,碰撞率=1.32%)