一眼看懂
封面预览
提出 Discrete Diffusion VLA,首个将离散扩散模型应用于视觉-语言-动作(VLA)策略中动作解码的统一Transforme…
- 提出 Discrete Diffusion VLA,首个将离散扩散模型应用于视觉-语言-动作(VLA)策略中动作解码的统一Transforme…
- 解决现有VLA方法中自回归解码的串行瓶颈和连续扩散模型与VLM骨干分离的问题,实现并行、可修正的动作生成
- 在保持预训练视觉-语言先验的同时,支持自适应解码顺序和迭代重掩码机制,提升动作建模精度和鲁棒性
Card 01
研究单位
研究单位
- The University of Hong Kong (香港大学)
- Shanghai AI Laboratory (上海人工智能实验室)
- Shanghai Jiao Tong University (上海交通大学)
- Huawei Cloud Computing Technologies Co., Ltd. (华为云计算技术有限公司)
Card 02
论文概述
论文概述
- 提出 Discrete Diffusion VLA,首个将离散扩散模型应用于视觉-语言-动作(VLA)策略中动作解码的统一Transformer架构
- 解决现有VLA方法中自回归解码的串行瓶颈和连续扩散模型与VLM骨干分离的问题,实现并行、可修正的动作生成
- 在保持预训练视觉-语言先验的同时,支持自适应解码顺序和迭代重掩码机制,提升动作建模精度和鲁棒性
Card 03
核心贡献
核心贡献
- 首次将离散扩散引入VLA领域,统一视觉、语言和动作生成于单一Transformer,无需额外动作解码头
- 提出自适应解码机制,根据置信度动态选择"先易后难"的解码顺序,打破自回归的左到右限制
- 设计二次重掩码策略(阈值检查和残差下降检查),实现跨步骤一致性约束和鲁棒错误修正
- 在LIBERO、SimplerEnv-Fractal和SimplerEnv-Bridge三大基准上取得SOTA性能,同时减少函数评估次数(NFEs)
- 验证了离散扩散VLA对预训练视觉-语言能力的更好保留,在分布外(OOD)测试中表现更优
Card 04
方法描述
方法描述
- 动作离散化:将连续控制量(位置、姿态、夹爪状态)通过256-bin分位数分箱映射为离散token,组成固定长度动作块
- 离散扩散建模:基于掩码扩散(masked diffusion)形式化前向加噪和反向去噪过程,训练目标为掩码位置的交叉熵损失
- 统一架构:基于Prismatic-7B VLM(SigLIP+DINOv2视觉编码器 + Llama-2语言模型),将因果注意力改为双向注意力处理动作token
- 推理算法:从全掩码初始状态出发,通过12步余弦调度迭代精化,每步根据最大置信度或置信度间隙排序保留高置信度token,并应用Gumbel采样和温度退火
Card 05
数据集与资源
数据集与资源
- LIBERO:Franka Panda机械臂,4个任务套件(Spatial/Object/Goal/Long),每套件500条专家演示
- SimplerEnv-Fractal:Google Robot,基于Fractal数据集微调
- SimplerEnv-Bridge:WidowX机械臂,基于BridgeData-V2数据集微调
- 输入:RGB图像(224×224)、语言指令、可选末端执行器位置(无深度、无 affordance)
- 模型规模:7B参数(Prismatic-7B VLM骨干)
- 训练:每套件独立微调,动作块长度8(LIBERO/Fractal)或3(Bridge)
Card 06
评估与结果
评估与结果
- LIBERO:平均成功率96.3%,超越OpenVLA-OFT (Discrete) 95.5%(+0.9%),其中Spatial 97.2%、Object 98.6%、Goal 97.4%、Long 92.0%
- SimplerEnv-Fractal:视觉匹配71.2%、变体聚合56.9%、总体64.1%,超越π₀-FAST 60.5%和π₀ 56.8%
- SimplerEnv-Bridge:总体成功率54.2%,超越π₀ 40.1%(+14.1%)和π₀-FAST 48.3%(+5.9%)
- OOD鲁棒性:在LIBERO-Goal语言增强测试中仅下降1.4%(对比OpenVLA-OFT Discrete的8.0%),视觉增强下降21.0%(优于连续扩散的29.0%)
- 推理效率:12步离散扩散 vs. 自回归基线需要56步(动作token数),NFEs减少78.6%