论文提出了 RynnVLA-002，这是一个统一的视觉-语言-动作（VLA）模型与世界模型框架。

论文详情

RynnVLA-002: A Unified Vision-Language-Action and World Model

2025-11-21 · 原文 · 翻译 · 2511.17502

论文提出了 RynnVLA-002，这是一个统一的视觉-语言-动作（VLA）模型与世界模型框架。该框架旨在解决标准 VLA 模型缺乏对动作的显式理解、想象能力和物理理解的问题，同时弥补世界模型无法直接生成动作的不足。通过联合学习环境动力学和动作规划，VLA 模型与世界模型相互增强，实现了双向的性能提升。

4 分钟读完 6 张阅读卡 DAMO Academy, Alibaba Group

一眼看懂封面预览

论文提出了 RynnVLA-002，这是一个统一的视觉-语言-动作（VLA）模型与世界模型框架。

论文提出了 RynnVLA-002，这是一个统一的视觉-语言-动作（VLA）模型与世界模型框架。
该框架旨在解决标准 VLA 模型缺乏对动作的显式理解、想象能力和物理理解的问题，同时弥补世界模型无法直接生成动作的不足。
通过联合学习环境动力学和动作规划，VLA 模型与世界模型相互增强，实现了双向的性能提升。

Card 01 研究单位

研究单位

DAMO Academy, Alibaba Group
Hupan Lab
Zhejiang University

Card 02 论文概述

论文概述

论文提出了 RynnVLA-002，这是一个统一的视觉-语言-动作（VLA）模型与世界模型框架。
该框架旨在解决标准 VLA 模型缺乏对动作的显式理解、想象能力和物理理解的问题，同时弥补世界模型无法直接生成动作的不足。
通过联合学习环境动力学和动作规划，VLA 模型与世界模型相互增强，实现了双向的性能提升。

Card 03 核心贡献

核心贡献

提出了 RynnVLA-002 统一框架，将 VLA 模型与世界模型整合在单一架构中，实现了动作预测与世界建模能力的互补。
针对离散动作块生成中的误差累积问题，设计了一种动作注意力掩码策略；同时引入连续 Action Transformer 头以增强泛化能力和轨迹平滑度。
在 LIBERO 仿真基准测试中，无需预训练即达到了 97.4% 的成功率；在真实机器人实验中，集成的世界模型将整体成功率提升了 50%。

Card 04 方法描述

方法描述

模型基于 Chameleon 架构初始化，使用统一的词表（大小为 65536）处理图像、文本、状态和动作标记。
引入了专门的动作注意力掩码机制，在生成当前动作时屏蔽先前动作，消除自回归生成中的误差传播。
为了解决真实机器人任务中的泛化和抖动问题，在离散建模基础上增加了连续 Action Transformer 头，利用并行解码生成更平滑的动作轨迹。

Card 05 数据集与资源

数据集与资源

仿真实验使用了 LIBERO 基准数据集，包含 Spatial、Object、Goal 和 Long 四个任务套件。
真实世界实验构建了一个新的 LeRobot SO100 机械臂操作数据集，包含“将方块放入圆圈”和“将草莓放入杯子”两个任务。
模型输入包括历史图像观测、本体感知状态和语言指令。

Card 06 评估与结果

评估与结果

在 LIBERO 仿真基准上，连续动作版本的模型取得了 97.4% 的平均成功率，离散动作版本达到了 93.3%，无需预训练即可媲美甚至超越现有的强基线模型。
在真实世界 SO100 机械臂实验中，模型在多目标和干扰物场景下的表现优于 GR00T N1.5 和 $\pi_{0}$ 等基线，成功率高出 10% 至 30%。
消融实验表明，世界模型数据对 VLA 模型至关重要，能将真实世界任务的成功率从低于 30% 提升至超过 80%；同时 VLA 数据也增强了世界模型的视频生成质量。