Motus: A Unified Latent Action World Model - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

提出 Motus，一个统一的潜动作世界模型（Unified Latent Action World Model），旨在解决现有具身智能方法中模…

Card 01 研究单位

研究单位

Card 02 论文概述

提出 Motus，一个统一的潜动作世界模型（Unified Latent Action World Model），旨在解决现有具身智能方法中模型碎片化的问题
整合五种主流范式（VLA、世界模型、IDM、视频生成模型、视频-动作联合预测模型）于单一框架，实现场景理解、未来想象、后果预测和动作生成的统一
解决两大核心挑战：统一多模态生成能力，以及利用大规模异构数据（互联网视频、人类演示、多机器人轨迹）进行预训练

Card 03 核心贡献

首个统一五种主流具身智能范式的端到端基础模型，通过 Mixture-of-Transformers (MoT) 架构融合预训练专家（VGM、VLM、动作专家）
提出基于光流（Optical Flow）的潜动作表示，将像素级运动信息编码为可共享的"delta动作"，实现跨具身迁移
设计三阶段训练流程（视频预训练→潜动作预训练→目标机器人微调）和六层数据金字塔，支持从网络规模数据到目标机器人数据的分层利用
提出 Tri-model Joint Attention 机制和 UniDiffuser-style 调度器，实现多专家间的跨模态知识融合与灵活推理模式切换
在仿真环境（RoboTwin 2.0）和真实世界任务中均取得显著提升，相比 X-VLA 提升 +15%，相比 π₀.₅ 提升 +45%

Card 04 方法描述

架构设计：采用 MoT（Mixture-of-Transformers） 架构，三个专家（生成专家-Wan 2.2 5B、理解专家-Qwen3-VL-2B、动作专家）共享多头自注意力层，保持独立前馈网络
潜动作学习：使用 DC-AE（Deep Compression Autoencoder） 将光流压缩为14维潜向量，通过90%无标签数据自监督重建 + 10%有标签数据弱监督对齐真实动作空间
训练策略：Action-Dense Video-Sparse Prediction —— 视频帧率降为动作帧率的1/6，平衡视频token与动作token数量，防止过拟合视频预测
推理灵活性：通过分配不同时间步和噪声尺度，支持五种推理模式自适应切换（VLA、WM、IDM、VGM、Joint Prediction）

Card 05 数据集与资源

六层数据金字塔：Level 1（Web数据）、Level 2（第一人称人类视频）、Level 3（合成数据）、Level 4（任务无关数据）、Level 5（多机器人任务轨迹）、Level 6（目标机器人任务数据）
数据来源：AgiBotWorld、RoboMind、RDT、EgoDex、RoboTwin等
基础模型：Wan 2.2 5B（视频生成）、Qwen3-VL-2B（视觉-语言理解）
光流计算：DPFlow

Card 06 评估与结果

- 在 *Pick Dual Bottles* 任务：Motus 96% vs π₀.₅ 10%（Clean）、90% vs 6%（Randomized）

- 在 *Stack Blocks Three* 任务：Motus 91% vs X-VLA 6%（Clean）

- 在 *Turn Switch* 任务：Motus 84% vs π₀.₅ 5%、X-VLA 40%