提出Unified Diffusion VLA (UD-VLA)，一种通过联合离散去噪扩散过程（JD3P）统一视觉-语言-动作建模的机器人智能…

论文详情

Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process

2025-11-03 · 原文 · 翻译 · 2511.01718

提出Unified Diffusion VLA (UD-VLA)，一种通过联合离散去噪扩散过程（JD3P）统一视觉-语言-动作建模的机器人智能体模型解决现有统一VLA模型中图像生成与动作预测分离、缺乏内在协同的问题，实现理解、生成与执行的深度耦合核心创新：通过同步去噪轨迹联合优化视觉生成和动作预测，使动作在充分的视觉引导下迭代精化

6 分钟读完 6 张阅读卡 HKUST(GZ)（香港科技大学广州校区）：Jiayi Chen, Wenxuan Song, Ziy…

一眼看懂封面预览

提出Unified Diffusion VLA (UD-VLA)，一种通过联合离散去噪扩散过程（JD3P）统一视觉-语言-动作建模的机器人智能…

提出Unified Diffusion VLA (UD-VLA)，一种通过联合离散去噪扩散过程（JD3P）统一视觉-语言-动作建模的机器人智能…
解决现有统一VLA模型中图像生成与动作预测分离、缺乏内在协同的问题，实现理解、生成与执行的深度耦合
核心创新：通过同步去噪轨迹联合优化视觉生成和动作预测，使动作在充分的视觉引导下迭代精化

Card 01 研究单位

研究单位

HKUST(GZ)（香港科技大学广州校区）：Jiayi Chen, Wenxuan Song, Ziyang Zhou, Haoang Li
Westlake University（西湖大学）：Pengxiang Ding, Han Zhao, Donglin Wang
Zhejiang University（浙江大学）：Pengxiang Ding, Han Zhao
Monash University（莫纳什大学）：Feilong Tang

Card 02 论文概述

论文概述

提出Unified Diffusion VLA (UD-VLA)，一种通过联合离散去噪扩散过程（JD3P）统一视觉-语言-动作建模的机器人智能体模型
解决现有统一VLA模型中图像生成与动作预测分离、缺乏内在协同的问题，实现理解、生成与执行的深度耦合
核心创新：通过同步去噪轨迹联合优化视觉生成和动作预测，使动作在充分的视觉引导下迭代精化

Card 03 核心贡献

核心贡献

提出Unified Diffusion VLA架构，首次实现理解、生成、执行三者的紧密耦合与相互增强
设计Joint Discrete Denoising Diffusion Process (JD3P)，将多模态信息整合到单一去噪轨迹中，作为跨模态协同的核心机制
构建混合注意力机制（Hybrid Attention），在保持模态内双向交互的同时强制跨模态因果注意力，避免信息泄露
开发两阶段训练流程：先扩展VLM的图像预测能力，再联合训练图像生成与动作预测
引入推理优化技术：KV缓存、预填充token、置信度引导解码、解码空间映射，实现4倍于自回归方法的推理速度

Card 04 方法描述

方法描述

统一离散化空间：使用VQ分词器处理图像，FAST分词器处理动作，将语言、视觉、动作统一为离散token序列
JD3P扩散过程：定义联合马尔可夫链，以概率β_t将token掩码为特殊token M，通过单步mask-predict目标优化
混合注意力设计：输入文本与当前图像分别采用因果/双向注意力；输出分为图像生成块（双向）和动作块（双向），块间采用因果注意力（动作→图像）
推理加速策略：前缀KV缓存、预填充特殊token、基于置信度的TopK选择、温度退火的Gumbel采样、模态特定的解码空间限制

Card 05 数据集与资源

数据集与资源

预训练数据：大规模视频数据集（用于第一阶段图像生成能力注入）
机器人动作数据集：CALVIN、LIBERO、SimplerEnv等基准的机器人操作数据
模型基础：基于预训练VLM（Emu3风格）扩展，使用VQ视觉分词器和FAST动作分词器
训练硬件：具体GPU/TPU配置未在提供的HTML片段中明确说明

Card 06 评估与结果

评估与结果

CALVIN基准：在ABCD→D任务上达到平均成功长度4.64，超越所有基线（如MDT 4.52、UP-VLA 4.42、UniVLA* 4.26）
LIBERO基准：平均成功率92.7%，达到SOTA；Long套件89.6%（最高），Object套件95.7%
SimplerEnv-WidowX：平均成功率62.5%，显著超越F1（59.4%）、π₀-FAST（48.3%）、SpatialVLA（42.7%）等方法
真实世界实验：在UR5e机械臂+Inspire灵巧手上的堆叠、放置、翻转任务中，成功率超80%，泛化能力优于GR00T N1和UniVLA
推理速度：219.3 tokens/s，相比自回归方法（50.2 tokens/s）实现4.3倍加速