DeeAD: Dynamic Early Exit of Vision-Language Action for Efficient Autonomous Driving

一眼看懂封面预览

提出 DeeAD，一个无需训练的动作引导早退出框架，用于加速自动驾驶中的视觉-语言-动作（VLA）模型推理

Card 01 研究单位

研究单位

- Haibo Hu、Lianming Huang、Nan Guan

穆罕默德·本·扎耶德人工智能大学（Mohamed bin Zayed University of Artificial Intelligence），阿布扎比，阿联酋

- Chun Jason Xue

Card 02 论文概述

Card 03 核心贡献

提出物理意义驱动的动态早退出机制，当中间轨迹与导航先验的空间偏差在可接受范围内时终止推理，实现无需训练、可解释且动作对齐的加速
设计两个轻量级组件：（1）差异度估计器，以极低代价测量预测轨迹与参考轨迹的空间对齐程度；（2）多跳退出控制器，根据偏差幅度自适应跳过冗余层，大幅降低延迟开销
将 DeeAD 集成到 ORION VLA 框架中，在 Bench2Drive 上实现高达 28% 的 transformer 层稀疏度 和 29% 的延迟降低

Card 04 方法描述

早退出动作头（Early Exit Action Head）：在选定的 transformer 层提取部分轨迹，无需重新训练即可从任意层解码中间表示
差异度估计（Dissimilarity Estimation）：使用 L2 距离计算预测轨迹与参考轨迹（如 CARLA 导航路点）的空间偏差，当偏差小于阈值 δ 时触发早退出
多跳退出控制器：根据当前偏差与阈值 δ 的比例动态选择跳跃步长（s=1,2,4,8），实现从粗到细的层间搜索

Card 05 数据集与资源

Card 06 评估与结果

在 Bench2Drive 开环评估中的主要结果：