提出了 MMaDA-VLA，一个原生预训练的大型扩散视觉-语言-动作模型，旨在统一多模态理解和生成。

论文详情

MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation

2026-03-26 · 原文 · 翻译 · 2603.25406

提出了 MMaDA-VLA，一个原生预训练的大型扩散视觉-语言-动作模型，旨在统一多模态理解和生成。解决了现有分层或自回归 VLA 模型存在的架构冗余、时间不一致性、长序列误差累积以及缺乏环境动力学建模能力等问题。通过原生离散扩散公式，在一个离散 Token 空间中联合生成未来目标观测和动作块，无需额外的世界模型模块。

5 分钟读完 6 张阅读卡 Westlake University

一眼看懂封面预览

提出了 MMaDA-VLA，一个原生预训练的大型扩散视觉-语言-动作模型，旨在统一多模态理解和生成。

提出了 MMaDA-VLA，一个原生预训练的大型扩散视觉-语言-动作模型，旨在统一多模态理解和生成。
解决了现有分层或自回归 VLA 模型存在的架构冗余、时间不一致性、长序列误差累积以及缺乏环境动力学建模能力等问题。
通过原生离散扩散公式，在一个离散 Token 空间中联合生成未来目标观测和动作块，无需额外的世界模型模块。

Card 01 研究单位

研究单位

Westlake University
Zhejiang University
East China University of Science and Technology
Huawei Celia Team
The Hong Kong University of Science and Technology (Guangzhou)
OpenHelix Robotics

Card 02 论文概述

论文概述

提出了 MMaDA-VLA，一个原生预训练的大型扩散视觉-语言-动作模型，旨在统一多模态理解和生成。
解决了现有分层或自回归 VLA 模型存在的架构冗余、时间不一致性、长序列误差累积以及缺乏环境动力学建模能力等问题。
通过原生离散扩散公式，在一个离散 Token 空间中联合生成未来目标观测和动作块，无需额外的世界模型模块。

Card 03 核心贡献

核心贡献

提出了一种新颖的原生离散扩散 VLA 架构，将语言、图像和连续机器人动作统一映射到共享的离散 Token 空间。
设计了混合注意力机制，结合模态内的双向全注意力和模态间的因果注意力，以增强特征解耦和动作预测的稳定性。
引入了基于置信度重掩码的迭代去噪推理策略，支持动作块的并行解码以减少误差累积，并利用 Key-Value Cache 优化推理效率。
在仿真基准和真实世界任务中实现了最先进的性能，验证了模型在多任务和长序列操作中的有效性。

Card 04 方法描述

方法描述

使用 LLaDA 文本分词器、MAGVIT-v2 图像量化器以及动作离散化策略，将所有模态输入转换为离散 Token 序列。
模型骨干基于单一 Transformer 架构，通过掩码 Token 预测目标进行训练，联合预测未来的目标图像和动作序列。
采用混合注意力机制：模态内使用双向全注意力以捕捉全局依赖，模态间使用因果注意力以确保信息流的定向性。
推理阶段通过迭代去噪过程逐步恢复被掩码的 Token，并使用 Key-Value Cache 缓存指令部分的中间表示以加速生成。

Card 05 数据集与资源

数据集与资源

预训练数据集：包含 DROID, BC-Z, Bridge V2, Language Table 等 28 个大规模跨具身机器人操作数据集，总计约 6100 万步训练数据。
评估基准：LIBERO 仿真基准和 CALVIN 仿真基准（ABC→D 设置）。
模型骨干：MMaDA-8B-Base。
训练资源：使用 8 个 Nvidia H800 GPU 节点，预训练耗时约 30 小时。

Card 06 评估与结果

评估与结果

评估环境：LIBERO 多任务基准、CALVIN 长序列基准以及真实世界机器人操作任务。
评估指标：任务成功率（%）和平均完成长度。
在 LIBERO 基准上达到 98.0% 的平均成功率，超越了 OpenVLA 和 VLA-Adapter 等现有方法。
在 CALVIN 基准（ABC→D）上实现了 4.78 的平均完成长度，显著优于现有的离散和连续动作基线。
在真实世界机器人（AgileX Piper）实验中，该模型在抓取、堆叠和存储等任务上均表现出优异的成功率，优于 GR00T-N1 基线。