一眼看懂
封面预览
论文旨在解决离散扩散视觉-语言-动作模型推理速度慢,无法满足机器人实时控制(约30Hz)需求的问题。
- 论文旨在解决离散扩散视觉-语言-动作模型推理速度慢,无法满足机器人实时控制(约30Hz)需求的问题。
- 核心目标是提出一种加速方法,在大幅提升推理速度的同时,保持甚至超越原有模型的性能。
- 研究发现dVLA存在隐式的块状自回归解码倾向,并据此提出了一种结合块扩散与并行解码的创新策略。
Card 01
研究单位
研究单位
- 香港科技大学(广州)
- 上海科技大学
- 中科院上海技术物理研究所
- 清华大学AIR
- 西湖大学
- 浙江大学
Card 02
论文概述
论文概述
- 论文旨在解决离散扩散视觉-语言-动作模型推理速度慢,无法满足机器人实时控制(约30Hz)需求的问题。
- 核心目标是提出一种加速方法,在大幅提升推理速度的同时,保持甚至超越原有模型的性能。
- 研究发现dVLA存在隐式的块状自回归解码倾向,并据此提出了一种结合块扩散与并行解码的创新策略。
Card 03
核心贡献
核心贡献
- 揭示了完全双向的dVLA中存在隐式的块状自回归解码倾向,为混合自回归-扩散去噪过程提供了动机。
- 提出了Fast-dVLA方法,利用块状注意力和扩散强制,实现了KV缓存重用和块间并行解码。
- 设计了非对称蒸馏损失用于高效训练,以及流水线并行解码算法用于实时推理。
- 在多个基准上实现了最高4.1倍的推理加速,同时保持了SOTA水平的任务成功率。
Card 04
方法描述
方法描述
- 提出块状扩散策略,将动作序列划分为多个块,并采用块状注意力机制,使得已完成解码的块的KV状态可以缓存和复用。
- 引入扩散强制技术,为不同块分配单调递增的噪声级别,使模型能并行地对不同块进行去噪。
- 训练采用非对称蒸馏,使用预训练的双向dVLA作为教师模型,指导具有块状注意力的学生模型(Fast-dVLA)学习,仅需从头训练约1/10的步数即可收敛。
- 推理阶段设计了流水线并行解码算法,通过动态管理“半激活”和“全激活”状态,实现多块并行解码与顺序因果性的平衡。
Card 05
数据集与资源
数据集与资源
- 使用CALVIN、LIBERO和SIMPLER基准进行模拟实验评估。
- 基于现有dVLA模型:Dream-VLA、DD-VLA和UD-VLA。
- 训练蒸馏步骤约3k-4k步,相当于原模型微调预算的1/5到1/8。
- 真实世界实验使用双臂AgileX平台,每个任务收集了100条专家演示。
Card 06
评估与结果
评估与结果
- 在LIBERO基准上,Fast-dVLA相较于基模型实现了3.2x至4.1x的加速,同时任务成功率略有提升或保持持平。
- 在CALVIN和SimplerEnv上,加速后的Fast-dVLA在任务成功率上超越了连续流匹配方法和现有的dVLA模型。
- 真实世界实验表明,Fast-dVLA保持了30Hz的执行频率,满足实时控制需求,在传送带拾取任务中效率翻倍,在其他语义理解任务中保持了竞争力。
- 消融实验表明,将块大小设置为动作维度的倍数能更好地保持性能,置信度阈值设置为0.5是速度与性能的良好平衡点。