返回列表 VLA / Vision-Language-Action 每日论文卡
The Great March 100: 100 Detail-oriented Tasks for Evaluating Embodied AI Agents
论文提出 Great March 100 (GM-100),这是首个面向机器人学习奥运会的系统化基准测试

论文详情

The Great March 100: 100 Detail-oriented Tasks for Evaluating Embodied AI Agents

2026-01-16 · 原文 · 翻译 · 2601.11421

论文提出 Great March 100 (GM-100),这是首个面向机器人学习奥运会的系统化基准测试 旨在解决现有机器人数据集和任务设计缺乏多样性、长尾行为覆盖不足的问题 通过系统分析人类-物体交互原语和物体 Affordance,设计了 100 个细节导向任务 在两个机器人平台上收集了超过 13,000 条 遥操作轨迹,并评估了多种 VLA 基线模型

5 分钟读完 6 张阅读卡 上海交通大学 (SJTU) - 主要作者单位
一眼看懂 封面预览

论文提出 Great March 100 (GM-100),这是首个面向机器人学习奥运会的系统化基准测试

  • 论文提出 Great March 100 (GM-100),这是首个面向机器人学习奥运会的系统化基准测试
  • 旨在解决现有机器人数据集和任务设计缺乏多样性、长尾行为覆盖不足的问题
  • 通过系统分析人类-物体交互原语和物体 Affordance,设计了 100 个细节导向任务
Card 01 研究单位

研究单位

  • 上海交通大学 (SJTU) - 主要作者单位
  • SII - 作者单位
  • Robbyant - 作者单位
  • RHOS.ai - 实验平台
  • Ant Group - 合作单位
Card 02 论文概述

论文概述

  • 论文提出 Great March 100 (GM-100),这是首个面向机器人学习奥运会的系统化基准测试
  • 旨在解决现有机器人数据集和任务设计缺乏多样性、长尾行为覆盖不足的问题
  • 通过系统分析人类-物体交互原语和物体 Affordance,设计了 100 个细节导向任务
  • 在两个机器人平台上收集了超过 13,000 条 遥操作轨迹,并评估了多种 VLA 基线模型
Card 03 核心贡献

核心贡献

  • 识别现有机器人任务设计的局限性,强调需要更多样化和复杂的任务
  • 提出 GM-100,包含 100 个细节导向任务,覆盖广泛的交互和长尾行为
  • 基于人类动作理解物体 Affordance 的系统化任务设计方法,结合 LLM 自动生成和人类专家筛选
  • 收集中等规模数据集并评估多个基线模型,验证 GM-100 的挑战性和有效性
Card 04 方法描述

方法描述

  • 任务设计原则:遵循物理常识和低层次操作知识(how-level affordance),不依赖任务实用性
  • 任务生成流程:收集现有任务 → 基于 HAKE 和 OCL 进行语义扩展 → LLM 生成候选任务 → LLM+人类专家混合过滤 → 选择 100 个高优先级任务
  • 数据集收集:使用 Qwen3 模型 自动生成候选任务,通过遥操作在两种机器人平台上收集轨迹
  • 硬件平台:Agilex Cobot Magic(类似 Mobile-Aloha)和 Dobot Xtrainer(类似 Aloha)
Card 05 数据集与资源

数据集与资源

  • 数据集规模:超过 13,000 条遥操作轨迹
  • 任务数量:100 个任务
  • 每任务轨迹:100 条训练轨迹 + 30 条测试轨迹
  • 基线模型:DP(Diffusion Policy)、π0、π0.5、GR00T
  • 训练资源:NVIDIA RTX 4090 GPU,DP 批大小 512(8 GPU × 64),π0/π0.5 批大小 32
  • 项目地址:https://rhos.ai/research/gm-100
Card 06 评估与结果

评估与结果

  • 评估指标:Success Rate (SR)、Partial Success Rate (PSR)、Action Prediction Error(MSE 和 L1 损失)
  • 实验平台:Xtrainer(10 个任务)和 Cobot Magic(100 个任务)
  • 主要结果(Xtrainer 平台)

- π0.5 平均 SR 24.9%,PSR 53.9%(最优)

- π0 平均 SR 4.4%,PSR 32.1%

- DP 平均 SR 1.6%,PSR 7.0%(最差)

  • 关键发现:动作预测误差与物理成功率呈明显负相关,π0.5 在预测误差和成功率上均表现最佳
  • 结论:GM-100 任务具有足够挑战性,能够有效区分不同 VLA 模型的性能