一眼看懂
封面预览
论文提出 Great March 100 (GM-100),这是首个面向机器人学习奥运会的系统化基准测试
- 论文提出 Great March 100 (GM-100),这是首个面向机器人学习奥运会的系统化基准测试
- 旨在解决现有机器人数据集和任务设计缺乏多样性、长尾行为覆盖不足的问题
- 通过系统分析人类-物体交互原语和物体 Affordance,设计了 100 个细节导向任务
Card 01
研究单位
研究单位
- 上海交通大学 (SJTU) - 主要作者单位
- SII - 作者单位
- Robbyant - 作者单位
- RHOS.ai - 实验平台
- Ant Group - 合作单位
Card 02
论文概述
论文概述
- 论文提出 Great March 100 (GM-100),这是首个面向机器人学习奥运会的系统化基准测试
- 旨在解决现有机器人数据集和任务设计缺乏多样性、长尾行为覆盖不足的问题
- 通过系统分析人类-物体交互原语和物体 Affordance,设计了 100 个细节导向任务
- 在两个机器人平台上收集了超过 13,000 条 遥操作轨迹,并评估了多种 VLA 基线模型
Card 03
核心贡献
核心贡献
- 识别现有机器人任务设计的局限性,强调需要更多样化和复杂的任务
- 提出 GM-100,包含 100 个细节导向任务,覆盖广泛的交互和长尾行为
- 基于人类动作理解和物体 Affordance 的系统化任务设计方法,结合 LLM 自动生成和人类专家筛选
- 收集中等规模数据集并评估多个基线模型,验证 GM-100 的挑战性和有效性
Card 04
方法描述
方法描述
- 任务设计原则:遵循物理常识和低层次操作知识(how-level affordance),不依赖任务实用性
- 任务生成流程:收集现有任务 → 基于 HAKE 和 OCL 进行语义扩展 → LLM 生成候选任务 → LLM+人类专家混合过滤 → 选择 100 个高优先级任务
- 数据集收集:使用 Qwen3 模型 自动生成候选任务,通过遥操作在两种机器人平台上收集轨迹
- 硬件平台:Agilex Cobot Magic(类似 Mobile-Aloha)和 Dobot Xtrainer(类似 Aloha)
Card 05
数据集与资源
数据集与资源
- 数据集规模:超过 13,000 条遥操作轨迹
- 任务数量:100 个任务
- 每任务轨迹:100 条训练轨迹 + 30 条测试轨迹
- 基线模型:DP(Diffusion Policy)、π0、π0.5、GR00T
- 训练资源:NVIDIA RTX 4090 GPU,DP 批大小 512(8 GPU × 64),π0/π0.5 批大小 32
- 项目地址:https://rhos.ai/research/gm-100
Card 06
评估与结果
评估与结果
- 评估指标:Success Rate (SR)、Partial Success Rate (PSR)、Action Prediction Error(MSE 和 L1 损失)
- 实验平台:Xtrainer(10 个任务)和 Cobot Magic(100 个任务)
- 主要结果(Xtrainer 平台):
- π0.5 平均 SR 24.9%,PSR 53.9%(最优)
- π0 平均 SR 4.4%,PSR 32.1%
- DP 平均 SR 1.6%,PSR 7.0%(最差)
- 关键发现:动作预测误差与物理成功率呈明显负相关,π0.5 在预测误差和成功率上均表现最佳
- 结论:GM-100 任务具有足够挑战性,能够有效区分不同 VLA 模型的性能