Spec-VLA: Speculative Decoding for Vision-Language-Action Models with Relaxed Acceptance

一眼看懂封面预览

提出 Spec-VLA，首个将推测解码 (Speculative Decoding) 框架应用于视觉-语言-动作模型以加速其推理的框架。

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

Card 04 方法描述

基于Eagle-2推测解码框架进行适配。使用一个高效的草稿模型（基于Llama解码层构建）来并行生成候选动作令牌序列，由原始的VLA模型作为验证模型进行质量验证。
核心创新在于放松的接受机制：在验证阶段，不再要求草稿令牌必须与验证模型预测的令牌严格相等，而是允许两者在动作空间（即量化分桶ID）中的绝对距离小于一个预设的松弛阈值即被接受。
该方法利用了VLA模型（如OpenVLA, RT-2）将连续动作维度离散化为256个分桶的特性，距离计算直接且无开销。

Card 05 数据集与资源

数据集：LIBERO 仿真基准套件，包括 LIBERO-Goal、LIBERO-Object、LIBERO-Spatial、LIBERO-Long 四个任务集。
验证模型：微调后的 OpenVLA 模型。
训练资源：使用 4× Tesla A100 (80G) GPU 训练草稿模型，耗时约6小时。

Card 06 评估与结果

- 直接应用推测解码（无放松）可获得 1.08× 至 1.15× 的加速。

- 应用放松接受机制后，接受长度提升 25% 至 44%，加速比达到 1.22× 至 1.42×，同时成功率基本保持不变。

- 结合模型量化（int8）时，Spec-VLA 框架相对于量化后的自回归基线仍能实现最高 1.61× 的额外加速。