一眼看懂
封面预览
提出 Spec-VLA,首个将推测解码 (Speculative Decoding) 框架应用于视觉-语言-动作模型以加速其推理的框架。
- 提出 Spec-VLA,首个将推测解码 (Speculative Decoding) 框架应用于视觉-语言-动作模型以加速其推理的框架。
- 解决直接应用推测解码于VLA模型时,因动作预测任务复杂和VLA模型贪心解码机制导致的加速效果有限的问题。
- 设计了一种放松接受的有效机制,利用VLA模型动作令牌所表示的相对距离,在保持任务成功率的同时显著提升生成速度。
Card 01
研究单位
研究单位
- NLP2CT Lab, University of Macau (澳门大学)
- Infinigence AI
- Tsinghua University (清华大学)
- Zhongguancun Academy (中关村实验室)
Card 02
论文概述
论文概述
- 提出 Spec-VLA,首个将推测解码 (Speculative Decoding) 框架应用于视觉-语言-动作模型以加速其推理的框架。
- 解决直接应用推测解码于VLA模型时,因动作预测任务复杂和VLA模型贪心解码机制导致的加速效果有限的问题。
- 设计了一种放松接受的有效机制,利用VLA模型动作令牌所表示的相对距离,在保持任务成功率的同时显著提升生成速度。
Card 03
核心贡献
核心贡献
- 提出了首个针对VLA模型推理加速的推测解码框架 Spec-VLA。
- 创新性地设计了基于距离的放松接受准则,利用VLA动作令牌的量化特性(相邻令牌代表相似动作),无需额外计算即可放宽令牌接受条件。
- 在多个LIBERO基准测试集上的实验证明,该框架能有效提升接受长度和生成速度,且不牺牲任务成功率。
- 深入分析了放松接受阈值对接受长度和成功率的影响,展示了VLA模型在推测解码下的鲁棒性。
- 证明Spec-VLA框架可与模型量化(如int8, int4)互补,进一步提升加速效果。
Card 04
方法描述
方法描述
- 基于Eagle-2推测解码框架进行适配。使用一个高效的草稿模型(基于Llama解码层构建)来并行生成候选动作令牌序列,由原始的VLA模型作为验证模型进行质量验证。
- 核心创新在于放松的接受机制:在验证阶段,不再要求草稿令牌必须与验证模型预测的令牌严格相等,而是允许两者在动作空间(即量化分桶ID)中的绝对距离小于一个预设的松弛阈值即被接受。
- 该方法利用了VLA模型(如OpenVLA, RT-2)将连续动作维度离散化为256个分桶的特性,距离计算直接且无开销。
Card 05
数据集与资源
数据集与资源
- 数据集:LIBERO 仿真基准套件,包括 LIBERO-Goal、LIBERO-Object、LIBERO-Spatial、LIBERO-Long 四个任务集。
- 验证模型:微调后的 OpenVLA 模型。
- 训练资源:使用 4× Tesla A100 (80G) GPU 训练草稿模型,耗时约6小时。
Card 06
评估与结果
评估与结果
- 评估环境:LIBERO仿真环境,每个任务进行50次试验。
- 主要指标:任务成功率、平均接受长度、与自回归基线的加速比。
- 关键结果:
- 直接应用推测解码(无放松)可获得 1.08× 至 1.15× 的加速。
- 应用放松接受机制后,接受长度提升 25% 至 44%,加速比达到 1.22× 至 1.42×,同时成功率基本保持不变。
- 结合模型量化(int8)时,Spec-VLA 框架相对于量化后的自回归基线仍能实现最高 1.61× 的额外加速。