返回列表 VLA / Vision-Language-Action 每日论文卡
Do World Action Models Generalize Better than VLAs? A Robustness Study
本文对最先进的视觉-语言-动作模型和新兴的世界动作模型进行了比较鲁棒性研究。

论文详情

Do World Action Models Generalize Better than VLAs? A Robustness Study

2026-03-23 · 原文 · 翻译 · 2603.22078

本文对最先进的视觉-语言-动作模型和新兴的世界动作模型进行了比较鲁棒性研究。 研究旨在探究WAMs是否因其显式的动态预测能力和从视频预训练中获得的时空先验,而比VLAs具有更好的泛化性能。 论文在 LIBERO-Plus 和自建的 RoboTwin 2.0-Plus 基准上,系统评估了多种视觉和语言扰动下两类模型的性能。

4 分钟读完 6 张阅读卡 华为技术有限公司
一眼看懂 封面预览

本文对最先进的视觉-语言-动作模型和新兴的世界动作模型进行了比较鲁棒性研究。

  • 本文对最先进的视觉-语言-动作模型和新兴的世界动作模型进行了比较鲁棒性研究。
  • 研究旨在探究WAMs是否因其显式的动态预测能力和从视频预训练中获得的时空先验,而比VLAs具有更好的泛化性能。
  • 论文在 LIBERO-Plus 和自建的 RoboTwin 2.0-Plus 基准上,系统评估了多种视觉和语言扰动下两类模型的性能。
Card 01 研究单位

研究单位

  • 华为技术有限公司
  • 多伦多大学
Card 02 论文概述

论文概述

  • 本文对最先进的视觉-语言-动作模型和新兴的世界动作模型进行了比较鲁棒性研究。
  • 研究旨在探究WAMs是否因其显式的动态预测能力和从视频预训练中获得的时空先验,而比VLAs具有更好的泛化性能。
  • 论文在 LIBERO-Plus 和自建的 RoboTwin 2.0-Plus 基准上,系统评估了多种视觉和语言扰动下两类模型的性能。
Card 03 核心贡献

核心贡献

  • 提出了一个新的双臂机器人操作鲁棒性基准 RoboTwin 2.0-Plus,该基准遵循 LIBERO-Plus 的扰动协议。
  • 对代表性的VLAs(如 π₀.₅)和WAMs(如 LingBot-VA, Cosmos-Policy)进行了全面的性能比较。
  • 揭示了WAMs通常对噪声、光照和布局等扰动具有更强的鲁棒性,同时指出VLAs(如 π₀.₅)在经过大量数据训练后可达到可比的鲁棒性。
  • 分析了WAMs与VLAs在骨干模型、训练策略和预测方案上的核心差异,并指出WAMs的推理速度慢是其部署的主要挑战。
Card 04 方法描述

方法描述

  • 论文通过系统性的实验进行对比研究,而非提出新的技术方法。
  • 实验评估在两个不同设置的操作基准上进行:LIBERO-Plus(单臂Franka Panda机器人)和 RoboTwin 2.0-Plus(双臂Aloha-Agilex机器人)。
  • 评估协议包括在原始环境上的成功率测试,以及施加七类扰动(相机、机器人初始状态、语言指令、光照、背景、传感器噪声、物体布局)后的性能测试。
Card 05 数据集与资源

数据集与资源

  • 主要评估基准:LIBERO-PlusRoboTwin 2.0-Plus
  • 评估模型包括:π₀, π₀.₅, OpenVLA-OFT, X-VLA, VLA-JEPA, MOTUS, GE-Act, Cosmos-Policy, LingBot-VA 等。
  • 模型参数规模从 1.5B14B 不等。
  • 论文未明确说明评估所用的具体计算资源。
Card 06 评估与结果

评估与结果

  • 评估在模拟环境中进行,主要指标为 任务成功率
  • RoboTwin 2.0-Plus 上,WAM LingBot-VA 取得最佳总体成功率 74.2%,并在七类扰动中的五类上排名第一。
  • LIBERO-Plus 上,WAM Cosmos-Policy 取得最佳总体成功率 82.2%,而VLA π₀.₅ 也达到了 85.7% 的有竞争力表现。
  • 结果表明WAMs通常具有更强的鲁棒性,其优势归因于从视频生成骨干中继承的时空先验;而VLA π₀.₅ 通过大规模多样化数据训练也能达到类似的鲁棒性。