返回列表 VLA / Vision-Language-Action 每日论文卡
Fast-dVLA: Accelerating Discrete Diffusion VLA to Real-Time Performance
论文旨在解决离散扩散视觉-语言-动作模型推理速度慢,无法满足机器人实时控制(约30Hz)需求的问题。

论文详情

Fast-dVLA: Accelerating Discrete Diffusion VLA to Real-Time Performance

2026-03-26 · 原文 · 翻译 · 2603.25661

论文旨在解决离散扩散视觉-语言-动作模型推理速度慢,无法满足机器人实时控制(约30Hz)需求的问题。 核心目标是提出一种加速方法,在大幅提升推理速度的同时,保持甚至超越原有模型的性能。 研究发现dVLA存在隐式的块状自回归解码倾向,并据此提出了一种结合块扩散与并行解码的创新策略。

4 分钟读完 6 张阅读卡 香港科技大学(广州)
一眼看懂 封面预览

论文旨在解决离散扩散视觉-语言-动作模型推理速度慢,无法满足机器人实时控制(约30Hz)需求的问题。

  • 论文旨在解决离散扩散视觉-语言-动作模型推理速度慢,无法满足机器人实时控制(约30Hz)需求的问题。
  • 核心目标是提出一种加速方法,在大幅提升推理速度的同时,保持甚至超越原有模型的性能。
  • 研究发现dVLA存在隐式的块状自回归解码倾向,并据此提出了一种结合块扩散与并行解码的创新策略。
Card 01 研究单位

研究单位

  • 香港科技大学(广州)
  • 上海科技大学
  • 中科院上海技术物理研究所
  • 清华大学AIR
  • 西湖大学
  • 浙江大学
Card 02 论文概述

论文概述

  • 论文旨在解决离散扩散视觉-语言-动作模型推理速度慢,无法满足机器人实时控制(约30Hz)需求的问题。
  • 核心目标是提出一种加速方法,在大幅提升推理速度的同时,保持甚至超越原有模型的性能。
  • 研究发现dVLA存在隐式的块状自回归解码倾向,并据此提出了一种结合块扩散与并行解码的创新策略。
Card 03 核心贡献

核心贡献

  • 揭示了完全双向的dVLA中存在隐式的块状自回归解码倾向,为混合自回归-扩散去噪过程提供了动机。
  • 提出了Fast-dVLA方法,利用块状注意力和扩散强制,实现了KV缓存重用和块间并行解码。
  • 设计了非对称蒸馏损失用于高效训练,以及流水线并行解码算法用于实时推理。
  • 在多个基准上实现了最高4.1倍的推理加速,同时保持了SOTA水平的任务成功率。
Card 04 方法描述

方法描述

  • 提出块状扩散策略,将动作序列划分为多个块,并采用块状注意力机制,使得已完成解码的块的KV状态可以缓存和复用。
  • 引入扩散强制技术,为不同块分配单调递增的噪声级别,使模型能并行地对不同块进行去噪。
  • 训练采用非对称蒸馏,使用预训练的双向dVLA作为教师模型,指导具有块状注意力的学生模型(Fast-dVLA)学习,仅需从头训练约1/10的步数即可收敛。
  • 推理阶段设计了流水线并行解码算法,通过动态管理“半激活”和“全激活”状态,实现多块并行解码与顺序因果性的平衡。
Card 05 数据集与资源

数据集与资源

  • 使用CALVINLIBEROSIMPLER基准进行模拟实验评估。
  • 基于现有dVLA模型:Dream-VLADD-VLAUD-VLA
  • 训练蒸馏步骤约3k-4k步,相当于原模型微调预算的1/5到1/8。
  • 真实世界实验使用双臂AgileX平台,每个任务收集了100条专家演示。
Card 06 评估与结果

评估与结果

  • LIBERO基准上,Fast-dVLA相较于基模型实现了3.2x至4.1x的加速,同时任务成功率略有提升或保持持平。
  • CALVINSimplerEnv上,加速后的Fast-dVLA在任务成功率上超越了连续流匹配方法和现有的dVLA模型。
  • 真实世界实验表明,Fast-dVLA保持了30Hz的执行频率,满足实时控制需求,在传送带拾取任务中效率翻倍,在其他语义理解任务中保持了竞争力。
  • 消融实验表明,将块大小设置为动作维度的倍数能更好地保持性能,置信度阈值设置为0.5是速度与性能的良好平衡点。