论文旨在解决离散扩散视觉-语言-动作模型推理速度慢，无法满足机器人实时控制（约30Hz）需求的问题。

论文详情

Fast-dVLA: Accelerating Discrete Diffusion VLA to Real-Time Performance

2026-03-26 · 原文 · 翻译 · 2603.25661

论文旨在解决离散扩散视觉-语言-动作模型推理速度慢，无法满足机器人实时控制（约30Hz）需求的问题。核心目标是提出一种加速方法，在大幅提升推理速度的同时，保持甚至超越原有模型的性能。研究发现dVLA存在隐式的块状自回归解码倾向，并据此提出了一种结合块扩散与并行解码的创新策略。

4 分钟读完 6 张阅读卡香港科技大学（广州）

一眼看懂封面预览

论文旨在解决离散扩散视觉-语言-动作模型推理速度慢，无法满足机器人实时控制（约30Hz）需求的问题。

论文旨在解决离散扩散视觉-语言-动作模型推理速度慢，无法满足机器人实时控制（约30Hz）需求的问题。
核心目标是提出一种加速方法，在大幅提升推理速度的同时，保持甚至超越原有模型的性能。
研究发现dVLA存在隐式的块状自回归解码倾向，并据此提出了一种结合块扩散与并行解码的创新策略。

Card 01 研究单位

研究单位

香港科技大学（广州）
上海科技大学
中科院上海技术物理研究所
清华大学AIR
西湖大学
浙江大学

Card 02 论文概述

论文概述

论文旨在解决离散扩散视觉-语言-动作模型推理速度慢，无法满足机器人实时控制（约30Hz）需求的问题。
核心目标是提出一种加速方法，在大幅提升推理速度的同时，保持甚至超越原有模型的性能。
研究发现dVLA存在隐式的块状自回归解码倾向，并据此提出了一种结合块扩散与并行解码的创新策略。

Card 03 核心贡献

核心贡献

揭示了完全双向的dVLA中存在隐式的块状自回归解码倾向，为混合自回归-扩散去噪过程提供了动机。
提出了Fast-dVLA方法，利用块状注意力和扩散强制，实现了KV缓存重用和块间并行解码。
设计了非对称蒸馏损失用于高效训练，以及流水线并行解码算法用于实时推理。
在多个基准上实现了最高4.1倍的推理加速，同时保持了SOTA水平的任务成功率。

Card 04 方法描述

方法描述

提出块状扩散策略，将动作序列划分为多个块，并采用块状注意力机制，使得已完成解码的块的KV状态可以缓存和复用。
引入扩散强制技术，为不同块分配单调递增的噪声级别，使模型能并行地对不同块进行去噪。
训练采用非对称蒸馏，使用预训练的双向dVLA作为教师模型，指导具有块状注意力的学生模型（Fast-dVLA）学习，仅需从头训练约1/10的步数即可收敛。
推理阶段设计了流水线并行解码算法，通过动态管理“半激活”和“全激活”状态，实现多块并行解码与顺序因果性的平衡。

Card 05 数据集与资源

数据集与资源

使用CALVIN、LIBERO和SIMPLER基准进行模拟实验评估。
基于现有dVLA模型：Dream-VLA、DD-VLA和UD-VLA。
训练蒸馏步骤约3k-4k步，相当于原模型微调预算的1/5到1/8。
真实世界实验使用双臂AgileX平台，每个任务收集了100条专家演示。

Card 06 评估与结果

评估与结果

在LIBERO基准上，Fast-dVLA相较于基模型实现了3.2x至4.1x的加速，同时任务成功率略有提升或保持持平。
在CALVIN和SimplerEnv上，加速后的Fast-dVLA在任务成功率上超越了连续流匹配方法和现有的dVLA模型。
真实世界实验表明，Fast-dVLA保持了30Hz的执行频率，满足实时控制需求，在传送带拾取任务中效率翻倍，在其他语义理解任务中保持了竞争力。
消融实验表明，将块大小设置为动作维度的倍数能更好地保持性能，置信度阈值设置为0.5是速度与性能的良好平衡点。