返回列表 VLA / Vision-Language-Action 每日论文卡

CEED-VLA: Consistency Vision-Language-Action Model with Early-Exit Decoding

论文详情

CEED-VLA: Consistency Vision-Language-Action Model with Early-Exit Decoding

2025-06-16 · 原文 · 翻译 · 2506.13725

研究目标:显著提升视觉语言动作(VLA)模型的推理效率,同时保持机械臂操作性能 核心问题:VLA模型在实际部署中受推理速度瓶颈限制,特别是在高频和灵巧操作任务中 解决方案:提出一致性蒸馏训练和早退出解码策略,实现超过4倍的推理加速

4 分钟读完 6 张阅读卡 HKUST(GZ):香港科技大学(广州)
一眼看懂 封面预览

研究目标:显著提升视觉语言动作(VLA)模型的推理效率,同时保持机械臂操作性能

  • 研究目标:显著提升视觉语言动作(VLA)模型的推理效率,同时保持机械臂操作性能
  • 核心问题:VLA模型在实际部署中受推理速度瓶颈限制,特别是在高频和灵巧操作任务中
  • 解决方案:提出一致性蒸馏训练和早退出解码策略,实现超过4倍的推理加速
Card 01 研究单位

研究单位

  • HKUST(GZ):香港科技大学(广州)
  • Westlake University:西湖大学
  • Zhejiang University:浙江大学
  • 作者:Wenxuan Song, Jiayi Chen, Pengxiang Ding, Yuxin Huang, Han Zhao, Donglin Wang, Haoang Li
Card 02 论文概述

论文概述

  • 研究目标:显著提升视觉语言动作(VLA)模型的推理效率,同时保持机械臂操作性能
  • 核心问题:VLA模型在实际部署中受推理速度瓶颈限制,特别是在高频和灵巧操作任务中
  • 解决方案:提出一致性蒸馏训练和早退出解码策略,实现超过4倍的推理加速
Card 03 核心贡献

核心贡献

  • 提出 CEED-VLA,一种通用的VLA模型加速方法,结合一致性和早退出解码
  • 设计一致性蒸馏训练,使模型能够在一次迭代中预测多个正确的动作token
  • 引入混合标签监督机制,自适应结合教师模型输出和真实标签,解决蒸馏过程中的错误累积问题
  • 提出早退出解码策略,放松严格的收敛条件,进一步提升平均推理效率
Card 04 方法描述

方法描述

  • 教师模型:使用 LLaVA-VLA 和 OpenVLA 作为基础模型
  • 学生模型:通过一致性蒸馏训练获得加速推理能力
  • 关键技术

- 将自回归解码重新表述为非线性方程组,使用 Jacobi 固定点迭代 方法求解

- 收集 Jacobi 轨迹数据用于一致性训练

- 设计一致性损失函数,将 Jacobi 轨迹上的任意中间状态映射到固定点

- 使用早退出条件 Y(k) = Y(k-1) 加速推理

Card 05 数据集与资源

数据集与资源

  • 数据集:CALVIN、LIBERO(模拟环境);真实机械臂实验
  • 基础模型:OpenVLA(70M参数)、LLaVA-VLA
  • 动作分块:每个动作包含7维(X, Y, Z位置;φ, θ, ψ旋转角度;G夹爪状态)
Card 06 评估与结果

评估与结果

  • 模拟环境:在 CALVIN 和 LIBERO 上实现 2-4.1倍 加速,任务成功率与基线相当
  • 真实世界:实现 4倍 频率提升,在高频灵巧操作任务上成功率提高
  • 早退出效果:CEED-VLA-Turbo 变体进一步减少迭代次数,实现更高加速