论文提出 Great March 100 (GM-100)，这是首个面向机器人学习奥运会的系统化基准测试

论文详情

The Great March 100: 100 Detail-oriented Tasks for Evaluating Embodied AI Agents

2026-01-16 · 原文 · 翻译 · 2601.11421

论文提出 Great March 100 (GM-100)，这是首个面向机器人学习奥运会的系统化基准测试旨在解决现有机器人数据集和任务设计缺乏多样性、长尾行为覆盖不足的问题通过系统分析人类-物体交互原语和物体 Affordance，设计了 100 个细节导向任务在两个机器人平台上收集了超过 13,000 条遥操作轨迹，并评估了多种 VLA 基线模型

5 分钟读完 6 张阅读卡上海交通大学 (SJTU) - 主要作者单位

一眼看懂封面预览

论文提出 Great March 100 (GM-100)，这是首个面向机器人学习奥运会的系统化基准测试

论文提出 Great March 100 (GM-100)，这是首个面向机器人学习奥运会的系统化基准测试
旨在解决现有机器人数据集和任务设计缺乏多样性、长尾行为覆盖不足的问题
通过系统分析人类-物体交互原语和物体 Affordance，设计了 100 个细节导向任务

Card 01 研究单位

研究单位

上海交通大学 (SJTU) - 主要作者单位
SII - 作者单位
Robbyant - 作者单位
RHOS.ai - 实验平台
Ant Group - 合作单位

Card 02 论文概述

论文概述

论文提出 Great March 100 (GM-100)，这是首个面向机器人学习奥运会的系统化基准测试
旨在解决现有机器人数据集和任务设计缺乏多样性、长尾行为覆盖不足的问题
通过系统分析人类-物体交互原语和物体 Affordance，设计了 100 个细节导向任务
在两个机器人平台上收集了超过 13,000 条 遥操作轨迹，并评估了多种 VLA 基线模型

Card 03 核心贡献

核心贡献

识别现有机器人任务设计的局限性，强调需要更多样化和复杂的任务
提出 GM-100，包含 100 个细节导向任务，覆盖广泛的交互和长尾行为
基于人类动作理解和物体 Affordance 的系统化任务设计方法，结合 LLM 自动生成和人类专家筛选
收集中等规模数据集并评估多个基线模型，验证 GM-100 的挑战性和有效性

Card 04 方法描述

方法描述

任务设计原则：遵循物理常识和低层次操作知识（how-level affordance），不依赖任务实用性
任务生成流程：收集现有任务 → 基于 HAKE 和 OCL 进行语义扩展 → LLM 生成候选任务 → LLM+人类专家混合过滤 → 选择 100 个高优先级任务
数据集收集：使用 Qwen3 模型 自动生成候选任务，通过遥操作在两种机器人平台上收集轨迹
硬件平台：Agilex Cobot Magic（类似 Mobile-Aloha）和 Dobot Xtrainer（类似 Aloha）

Card 05 数据集与资源

数据集与资源

数据集规模：超过 13,000 条遥操作轨迹
任务数量：100 个任务
每任务轨迹：100 条训练轨迹 + 30 条测试轨迹
基线模型：DP（Diffusion Policy）、π0、π0.5、GR00T
训练资源：NVIDIA RTX 4090 GPU，DP 批大小 512（8 GPU × 64），π0/π0.5 批大小 32
项目地址：https://rhos.ai/research/gm-100

Card 06 评估与结果

评估与结果

评估指标：Success Rate (SR)、Partial Success Rate (PSR)、Action Prediction Error（MSE 和 L1 损失）
实验平台：Xtrainer（10 个任务）和 Cobot Magic（100 个任务）
主要结果（Xtrainer 平台）：

- π0.5 平均 SR 24.9%，PSR 53.9%（最优）

- π0 平均 SR 4.4%，PSR 32.1%

- DP 平均 SR 1.6%，PSR 7.0%（最差）

关键发现：动作预测误差与物理成功率呈明显负相关，π0.5 在预测误差和成功率上均表现最佳
结论：GM-100 任务具有足够挑战性，能够有效区分不同 VLA 模型的性能