返回列表 VLA / Vision-Language-Action 每日论文卡

Spec-VLA: Speculative Decoding for Vision-Language-Action Models with Relaxed Acceptance

论文详情

Spec-VLA: Speculative Decoding for Vision-Language-Action Models with Relaxed Acceptance

2025-07-30 · 原文 · 翻译 · 2507.22424

提出 Spec-VLA,首个将推测解码 (Speculative Decoding) 框架应用于视觉-语言-动作模型以加速其推理的框架。 解决直接应用推测解码于VLA模型时,因动作预测任务复杂和VLA模型贪心解码机制导致的加速效果有限的问题。 设计了一种放松接受的有效机制,利用VLA模型动作令牌所表示的相对距离,在保持任务成功率的同时显著提升生成速度。

5 分钟读完 6 张阅读卡 NLP2CT Lab, University of Macau (澳门大学)
一眼看懂 封面预览

提出 Spec-VLA,首个将推测解码 (Speculative Decoding) 框架应用于视觉-语言-动作模型以加速其推理的框架。

  • 提出 Spec-VLA,首个将推测解码 (Speculative Decoding) 框架应用于视觉-语言-动作模型以加速其推理的框架。
  • 解决直接应用推测解码于VLA模型时,因动作预测任务复杂和VLA模型贪心解码机制导致的加速效果有限的问题。
  • 设计了一种放松接受的有效机制,利用VLA模型动作令牌所表示的相对距离,在保持任务成功率的同时显著提升生成速度。
Card 01 研究单位

研究单位

  • NLP2CT Lab, University of Macau (澳门大学)
  • Infinigence AI
  • Tsinghua University (清华大学)
  • Zhongguancun Academy (中关村实验室)
Card 02 论文概述

论文概述

  • 提出 Spec-VLA,首个将推测解码 (Speculative Decoding) 框架应用于视觉-语言-动作模型以加速其推理的框架。
  • 解决直接应用推测解码于VLA模型时,因动作预测任务复杂和VLA模型贪心解码机制导致的加速效果有限的问题。
  • 设计了一种放松接受的有效机制,利用VLA模型动作令牌所表示的相对距离,在保持任务成功率的同时显著提升生成速度。
Card 03 核心贡献

核心贡献

  • 提出了首个针对VLA模型推理加速的推测解码框架 Spec-VLA
  • 创新性地设计了基于距离的放松接受准则,利用VLA动作令牌的量化特性(相邻令牌代表相似动作),无需额外计算即可放宽令牌接受条件。
  • 在多个LIBERO基准测试集上的实验证明,该框架能有效提升接受长度和生成速度,且不牺牲任务成功率。
  • 深入分析了放松接受阈值对接受长度和成功率的影响,展示了VLA模型在推测解码下的鲁棒性。
  • 证明Spec-VLA框架可与模型量化(如int8, int4)互补,进一步提升加速效果。
Card 04 方法描述

方法描述

  • 基于Eagle-2推测解码框架进行适配。使用一个高效的草稿模型(基于Llama解码层构建)来并行生成候选动作令牌序列,由原始的VLA模型作为验证模型进行质量验证。
  • 核心创新在于放松的接受机制:在验证阶段,不再要求草稿令牌必须与验证模型预测的令牌严格相等,而是允许两者在动作空间(即量化分桶ID)中的绝对距离小于一个预设的松弛阈值即被接受。
  • 该方法利用了VLA模型(如OpenVLA, RT-2)将连续动作维度离散化为256个分桶的特性,距离计算直接且无开销。
Card 05 数据集与资源

数据集与资源

  • 数据集LIBERO 仿真基准套件,包括 LIBERO-GoalLIBERO-ObjectLIBERO-SpatialLIBERO-Long 四个任务集。
  • 验证模型:微调后的 OpenVLA 模型。
  • 训练资源:使用 4× Tesla A100 (80G) GPU 训练草稿模型,耗时约6小时。
Card 06 评估与结果

评估与结果

  • 评估环境:LIBERO仿真环境,每个任务进行50次试验。
  • 主要指标:任务成功率、平均接受长度、与自回归基线的加速比
  • 关键结果

- 直接应用推测解码(无放松)可获得 1.08× 至 1.15× 的加速。

- 应用放松接受机制后,接受长度提升 25% 至 44%,加速比达到 1.22× 至 1.42×,同时成功率基本保持不变。

- 结合模型量化(int8)时,Spec-VLA 框架相对于量化后的自回归基线仍能实现最高 1.61× 的额外加速。