WorldVLA: Towards Autoregressive Action World Model

论文详情

WorldVLA: Towards Autoregressive Action World Model

2025-06-26 · 原文 · 翻译 · 2506.21539

论文提出了 WorldVLA，这是一种自回归动作世界模型，旨在统一动作和图像的理解与生成。该模型解决了现有视觉-语言-动作（VLA）模型仅将动作作为输出而缺乏深度理解，以及世界模型无法直接生成动作的局限性。研究发现自回归模型在生成连续动作块时存在误差传播导致性能下降的问题，并提出了相应的解决方案。

4 分钟读完 6 张阅读卡 DAMO Academy, Alibaba Group

一眼看懂封面预览

论文提出了 WorldVLA，这是一种自回归动作世界模型，旨在统一动作和图像的理解与生成。

论文提出了 WorldVLA，这是一种自回归动作世界模型，旨在统一动作和图像的理解与生成。
该模型解决了现有视觉-语言-动作（VLA）模型仅将动作作为输出而缺乏深度理解，以及世界模型无法直接生成动作的局限性。
研究发现自回归模型在生成连续动作块时存在误差传播导致性能下降的问题，并提出了相应的解决方案。

Card 01 研究单位

研究单位

DAMO Academy, Alibaba Group
Hupan Lab
Zhejiang University

Card 02 论文概述

论文概述

论文提出了 WorldVLA，这是一种自回归动作世界模型，旨在统一动作和图像的理解与生成。
该模型解决了现有视觉-语言-动作（VLA）模型仅将动作作为输出而缺乏深度理解，以及世界模型无法直接生成动作的局限性。
研究发现自回归模型在生成连续动作块时存在误差传播导致性能下降的问题，并提出了相应的解决方案。

Card 03 核心贡献

核心贡献

提出了 WorldVLA 框架，将动作模型与世界模型统一在单一的自回归架构中，实现了两者的相互增强。
设计了一种动作注意力掩码策略，在生成当前动作时屏蔽先前动作，有效缓解了自回归动作生成中的误差累积问题。
实验证明，世界模型通过学习物理规律提升了动作生成质量，而动作模型通过增强视觉理解提升了视觉生成能力。

Card 04 方法描述

方法描述

模型架构基于 Chameleon 初始化，采用自回归大语言模型架构，包含图像、文本和动作三个独立的分词器。
图像分词器使用 VQ-GAN（压缩率 16，码本大小 8192），动作分词器将连续机器人动作离散化为 256 个箱，每个动作由 7 个 token 表示。
训练策略混合了动作模型数据（根据图像和文本生成动作）和世界模型数据（根据图像和动作预测下一帧图像）。
关键技术创新在于改进的注意力掩码机制，使当前动作生成仅依赖于文本和视觉输入，而非先前的动作，从而支持并行解码并减少误差传播。

Card 05 数据集与资源

数据集与资源

主要评估数据集为 LIBERO 基准，包含 LIBERO-Spatial, LIBERO-Object, LIBERO-Goal 和 LIBERO-Long 等任务。
使用 LIBERO-90 数据集进行预训练对比。
图像输入分辨率为 256x256 或 512x512，动作块大小根据任务不同设置为 K=5 或 K=10。

Card 06 评估与结果

评估与结果

在 LIBERO 基准上与 Diffusion Policy, Octo, OpenVLA 等连续和离散动作模型进行了对比。
评估指标为任务成功率。
WorldVLA (512x512) 平均成功率达到 81.8%，优于离散基线模型 OpenVLA (76.5%)。
与独立模型相比，集成的世界模型将 FVD（Fréchet Video Distance）降低了 10%，动作模型的成功率提升了 4%。
提出的注意力掩码策略在动作块生成任务中显著缓解了性能下降，带来了 4% 到 23% 的成功率提升。