Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies

论文详情

Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies

2025-08-27 · 原文 · 翻译 · 2508.20072

提出 Discrete Diffusion VLA，首个将离散扩散模型应用于视觉-语言-动作（VLA）策略中动作解码的统一Transformer架构解决现有VLA方法中自回归解码的串行瓶颈和连续扩散模型与VLM骨干分离的问题，实现并行、可修正的动作生成在保持预训练视觉-语言先验的同时，支持自适应解码顺序和迭代重掩码机制，提升动作建模精度和鲁棒性

6 分钟读完 6 张阅读卡 The University of Hong Kong (香港大学)

一眼看懂封面预览

提出 Discrete Diffusion VLA，首个将离散扩散模型应用于视觉-语言-动作（VLA）策略中动作解码的统一Transforme…

提出 Discrete Diffusion VLA，首个将离散扩散模型应用于视觉-语言-动作（VLA）策略中动作解码的统一Transforme…
解决现有VLA方法中自回归解码的串行瓶颈和连续扩散模型与VLM骨干分离的问题，实现并行、可修正的动作生成
在保持预训练视觉-语言先验的同时，支持自适应解码顺序和迭代重掩码机制，提升动作建模精度和鲁棒性

Card 01 研究单位

研究单位

The University of Hong Kong (香港大学)
Shanghai AI Laboratory (上海人工智能实验室)
Shanghai Jiao Tong University (上海交通大学)
Huawei Cloud Computing Technologies Co., Ltd. (华为云计算技术有限公司)

Card 02 论文概述

论文概述

提出 Discrete Diffusion VLA，首个将离散扩散模型应用于视觉-语言-动作（VLA）策略中动作解码的统一Transformer架构
解决现有VLA方法中自回归解码的串行瓶颈和连续扩散模型与VLM骨干分离的问题，实现并行、可修正的动作生成
在保持预训练视觉-语言先验的同时，支持自适应解码顺序和迭代重掩码机制，提升动作建模精度和鲁棒性

Card 03 核心贡献

核心贡献

首次将离散扩散引入VLA领域，统一视觉、语言和动作生成于单一Transformer，无需额外动作解码头
提出自适应解码机制，根据置信度动态选择"先易后难"的解码顺序，打破自回归的左到右限制
设计二次重掩码策略（阈值检查和残差下降检查），实现跨步骤一致性约束和鲁棒错误修正
在LIBERO、SimplerEnv-Fractal和SimplerEnv-Bridge三大基准上取得SOTA性能，同时减少函数评估次数（NFEs）
验证了离散扩散VLA对预训练视觉-语言能力的更好保留，在分布外（OOD）测试中表现更优

Card 04 方法描述

方法描述

动作离散化：将连续控制量（位置、姿态、夹爪状态）通过256-bin分位数分箱映射为离散token，组成固定长度动作块
离散扩散建模：基于掩码扩散（masked diffusion）形式化前向加噪和反向去噪过程，训练目标为掩码位置的交叉熵损失
统一架构：基于Prismatic-7B VLM（SigLIP+DINOv2视觉编码器 + Llama-2语言模型），将因果注意力改为双向注意力处理动作token
推理算法：从全掩码初始状态出发，通过12步余弦调度迭代精化，每步根据最大置信度或置信度间隙排序保留高置信度token，并应用Gumbel采样和温度退火

Card 05 数据集与资源

数据集与资源

LIBERO：Franka Panda机械臂，4个任务套件（Spatial/Object/Goal/Long），每套件500条专家演示
SimplerEnv-Fractal：Google Robot，基于Fractal数据集微调
SimplerEnv-Bridge：WidowX机械臂，基于BridgeData-V2数据集微调
输入：RGB图像（224×224）、语言指令、可选末端执行器位置（无深度、无 affordance）
模型规模：7B参数（Prismatic-7B VLM骨干）
训练：每套件独立微调，动作块长度8（LIBERO/Fractal）或3（Bridge）

Card 06 评估与结果

评估与结果

LIBERO：平均成功率96.3%，超越OpenVLA-OFT (Discrete) 95.5%（+0.9%），其中Spatial 97.2%、Object 98.6%、Goal 97.4%、Long 92.0%
SimplerEnv-Fractal：视觉匹配71.2%、变体聚合56.9%、总体64.1%，超越π₀-FAST 60.5%和π₀ 56.8%
SimplerEnv-Bridge：总体成功率54.2%，超越π₀ 40.1%（+14.1%）和π₀-FAST 48.3%（+5.9%）
OOD鲁棒性：在LIBERO-Goal语言增强测试中仅下降1.4%（对比OpenVLA-OFT Discrete的8.0%），视觉增强下降21.0%（优于连续扩散的29.0%）
推理效率：12步离散扩散 vs. 自回归基线需要56步（动作token数），NFEs减少78.6%