返回列表 VLA / Vision-Language-Action 每日论文卡

Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies

论文详情

Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies

2025-08-27 · 原文 · 翻译 · 2508.20072

提出 Discrete Diffusion VLA,首个将离散扩散模型应用于视觉-语言-动作(VLA)策略中动作解码的统一Transformer架构 解决现有VLA方法中自回归解码的串行瓶颈和连续扩散模型与VLM骨干分离的问题,实现并行、可修正的动作生成 在保持预训练视觉-语言先验的同时,支持自适应解码顺序和迭代重掩码机制,提升动作建模精度和鲁棒性

6 分钟读完 6 张阅读卡 The University of Hong Kong (香港大学)
一眼看懂 封面预览

提出 Discrete Diffusion VLA,首个将离散扩散模型应用于视觉-语言-动作(VLA)策略中动作解码的统一Transforme…

  • 提出 Discrete Diffusion VLA,首个将离散扩散模型应用于视觉-语言-动作(VLA)策略中动作解码的统一Transforme…
  • 解决现有VLA方法中自回归解码的串行瓶颈和连续扩散模型与VLM骨干分离的问题,实现并行、可修正的动作生成
  • 在保持预训练视觉-语言先验的同时,支持自适应解码顺序和迭代重掩码机制,提升动作建模精度和鲁棒性
Card 01 研究单位

研究单位

  • The University of Hong Kong (香港大学)
  • Shanghai AI Laboratory (上海人工智能实验室)
  • Shanghai Jiao Tong University (上海交通大学)
  • Huawei Cloud Computing Technologies Co., Ltd. (华为云计算技术有限公司)
Card 02 论文概述

论文概述

  • 提出 Discrete Diffusion VLA,首个将离散扩散模型应用于视觉-语言-动作(VLA)策略中动作解码的统一Transformer架构
  • 解决现有VLA方法中自回归解码的串行瓶颈和连续扩散模型与VLM骨干分离的问题,实现并行、可修正的动作生成
  • 在保持预训练视觉-语言先验的同时,支持自适应解码顺序和迭代重掩码机制,提升动作建模精度和鲁棒性
Card 03 核心贡献

核心贡献

  • 首次将离散扩散引入VLA领域,统一视觉、语言和动作生成于单一Transformer,无需额外动作解码头
  • 提出自适应解码机制,根据置信度动态选择"先易后难"的解码顺序,打破自回归的左到右限制
  • 设计二次重掩码策略(阈值检查和残差下降检查),实现跨步骤一致性约束和鲁棒错误修正
  • 在LIBERO、SimplerEnv-Fractal和SimplerEnv-Bridge三大基准上取得SOTA性能,同时减少函数评估次数(NFEs)
  • 验证了离散扩散VLA对预训练视觉-语言能力的更好保留,在分布外(OOD)测试中表现更优
Card 04 方法描述

方法描述

  • 动作离散化:将连续控制量(位置、姿态、夹爪状态)通过256-bin分位数分箱映射为离散token,组成固定长度动作块
  • 离散扩散建模:基于掩码扩散(masked diffusion)形式化前向加噪和反向去噪过程,训练目标为掩码位置的交叉熵损失
  • 统一架构:基于Prismatic-7B VLM(SigLIP+DINOv2视觉编码器 + Llama-2语言模型),将因果注意力改为双向注意力处理动作token
  • 推理算法:从全掩码初始状态出发,通过12步余弦调度迭代精化,每步根据最大置信度或置信度间隙排序保留高置信度token,并应用Gumbel采样和温度退火
Card 05 数据集与资源

数据集与资源

  • LIBERO:Franka Panda机械臂,4个任务套件(Spatial/Object/Goal/Long),每套件500条专家演示
  • SimplerEnv-Fractal:Google Robot,基于Fractal数据集微调
  • SimplerEnv-Bridge:WidowX机械臂,基于BridgeData-V2数据集微调
  • 输入:RGB图像(224×224)、语言指令、可选末端执行器位置(无深度、无 affordance)
  • 模型规模:7B参数(Prismatic-7B VLM骨干)
  • 训练:每套件独立微调,动作块长度8(LIBERO/Fractal)或3(Bridge)
Card 06 评估与结果

评估与结果

  • LIBERO:平均成功率96.3%,超越OpenVLA-OFT (Discrete) 95.5%(+0.9%),其中Spatial 97.2%、Object 98.6%、Goal 97.4%、Long 92.0%
  • SimplerEnv-Fractal:视觉匹配71.2%、变体聚合56.9%、总体64.1%,超越π₀-FAST 60.5%和π₀ 56.8%
  • SimplerEnv-Bridge:总体成功率54.2%,超越π₀ 40.1%(+14.1%)和π₀-FAST 48.3%(+5.9%)
  • OOD鲁棒性:在LIBERO-Goal语言增强测试中仅下降1.4%(对比OpenVLA-OFT Discrete的8.0%),视觉增强下降21.0%(优于连续扩散的29.0%)
  • 推理效率:12步离散扩散 vs. 自回归基线需要56步(动作token数),NFEs减少78.6%