CEED-VLA: Consistency Vision-Language-Action Model with Early-Exit Decoding

论文详情

CEED-VLA: Consistency Vision-Language-Action Model with Early-Exit Decoding

2025-06-16 · 原文 · 翻译 · 2506.13725

研究目标：显著提升视觉语言动作（VLA）模型的推理效率，同时保持机械臂操作性能核心问题：VLA模型在实际部署中受推理速度瓶颈限制，特别是在高频和灵巧操作任务中解决方案：提出一致性蒸馏训练和早退出解码策略，实现超过4倍的推理加速

4 分钟读完 6 张阅读卡 HKUST(GZ)：香港科技大学（广州）

一眼看懂封面预览

研究目标：显著提升视觉语言动作（VLA）模型的推理效率，同时保持机械臂操作性能

研究目标：显著提升视觉语言动作（VLA）模型的推理效率，同时保持机械臂操作性能
核心问题：VLA模型在实际部署中受推理速度瓶颈限制，特别是在高频和灵巧操作任务中
解决方案：提出一致性蒸馏训练和早退出解码策略，实现超过4倍的推理加速

Card 01 研究单位

研究单位

HKUST(GZ)：香港科技大学（广州）
Westlake University：西湖大学
Zhejiang University：浙江大学
作者：Wenxuan Song, Jiayi Chen, Pengxiang Ding, Yuxin Huang, Han Zhao, Donglin Wang, Haoang Li

Card 02 论文概述

论文概述

研究目标：显著提升视觉语言动作（VLA）模型的推理效率，同时保持机械臂操作性能
核心问题：VLA模型在实际部署中受推理速度瓶颈限制，特别是在高频和灵巧操作任务中
解决方案：提出一致性蒸馏训练和早退出解码策略，实现超过4倍的推理加速

Card 03 核心贡献

核心贡献

提出 CEED-VLA，一种通用的VLA模型加速方法，结合一致性和早退出解码
设计一致性蒸馏训练，使模型能够在一次迭代中预测多个正确的动作token
引入混合标签监督机制，自适应结合教师模型输出和真实标签，解决蒸馏过程中的错误累积问题
提出早退出解码策略，放松严格的收敛条件，进一步提升平均推理效率

Card 04 方法描述

方法描述

教师模型：使用 LLaVA-VLA 和 OpenVLA 作为基础模型
学生模型：通过一致性蒸馏训练获得加速推理能力
关键技术：

- 将自回归解码重新表述为非线性方程组，使用 Jacobi 固定点迭代 方法求解

- 收集 Jacobi 轨迹数据用于一致性训练

- 设计一致性损失函数，将 Jacobi 轨迹上的任意中间状态映射到固定点

- 使用早退出条件 Y(k) = Y(k-1) 加速推理

Card 05 数据集与资源

数据集与资源

数据集：CALVIN、LIBERO（模拟环境）；真实机械臂实验
基础模型：OpenVLA（70M参数）、LLaVA-VLA
动作分块：每个动作包含7维（X, Y, Z位置；φ, θ, ψ旋转角度；G夹爪状态）

Card 06 评估与结果

评估与结果

模拟环境：在 CALVIN 和 LIBERO 上实现 2-4.1倍 加速，任务成功率与基线相当
真实世界：实现 4倍频率提升，在高频灵巧操作任务上成功率提高
早退出效果：CEED-VLA-Turbo 变体进一步减少迭代次数，实现更高加速