一眼看懂
封面预览
研究目标:显著提升视觉语言动作(VLA)模型的推理效率,同时保持机械臂操作性能
- 研究目标:显著提升视觉语言动作(VLA)模型的推理效率,同时保持机械臂操作性能
- 核心问题:VLA模型在实际部署中受推理速度瓶颈限制,特别是在高频和灵巧操作任务中
- 解决方案:提出一致性蒸馏训练和早退出解码策略,实现超过4倍的推理加速
Card 01
研究单位
研究单位
- HKUST(GZ):香港科技大学(广州)
- Westlake University:西湖大学
- Zhejiang University:浙江大学
- 作者:Wenxuan Song, Jiayi Chen, Pengxiang Ding, Yuxin Huang, Han Zhao, Donglin Wang, Haoang Li
Card 02
论文概述
论文概述
- 研究目标:显著提升视觉语言动作(VLA)模型的推理效率,同时保持机械臂操作性能
- 核心问题:VLA模型在实际部署中受推理速度瓶颈限制,特别是在高频和灵巧操作任务中
- 解决方案:提出一致性蒸馏训练和早退出解码策略,实现超过4倍的推理加速
Card 03
核心贡献
核心贡献
- 提出 CEED-VLA,一种通用的VLA模型加速方法,结合一致性和早退出解码
- 设计一致性蒸馏训练,使模型能够在一次迭代中预测多个正确的动作token
- 引入混合标签监督机制,自适应结合教师模型输出和真实标签,解决蒸馏过程中的错误累积问题
- 提出早退出解码策略,放松严格的收敛条件,进一步提升平均推理效率
Card 04
方法描述
方法描述
- 教师模型:使用 LLaVA-VLA 和 OpenVLA 作为基础模型
- 学生模型:通过一致性蒸馏训练获得加速推理能力
- 关键技术:
- 将自回归解码重新表述为非线性方程组,使用 Jacobi 固定点迭代 方法求解
- 收集 Jacobi 轨迹数据用于一致性训练
- 设计一致性损失函数,将 Jacobi 轨迹上的任意中间状态映射到固定点
- 使用早退出条件 Y(k) = Y(k-1) 加速推理
Card 05
数据集与资源
数据集与资源
- 数据集:CALVIN、LIBERO(模拟环境);真实机械臂实验
- 基础模型:OpenVLA(70M参数)、LLaVA-VLA
- 动作分块:每个动作包含7维(X, Y, Z位置;φ, θ, ψ旋转角度;G夹爪状态)
Card 06
评估与结果
评估与结果
- 模拟环境:在 CALVIN 和 LIBERO 上实现 2-4.1倍 加速,任务成功率与基线相当
- 真实世界:实现 4倍 频率提升,在高频灵巧操作任务上成功率提高
- 早退出效果:CEED-VLA-Turbo 变体进一步减少迭代次数,实现更高加速