返回列表 VLA / Vision-Language-Action 每日论文卡
ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation
论文提出了 ManipArena,一个标准化的真实世界评估框架,旨在弥合模拟与真实执行之间的差距。

论文详情

ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation

2026-03-30 · 原文 · 翻译 · 2603.28545

论文提出了 ManipArena,一个标准化的真实世界评估框架,旨在弥合模拟与真实执行之间的差距。 该框架针对 视觉-语言-动作 (VLA) 模型 和 世界模型 的评估瓶颈,解决了现有基准以模拟器为中心、缺乏可复现真实世界评估的问题。 ManipArena 包含20个多样化任务、10,812条专家轨迹,强调需要语义和空间推理的推理导向型操作任务,并支持多级泛化和长期视野的移动操作。

5 分钟读完 6 张阅读卡 SYSU
一眼看懂 封面预览

论文提出了 ManipArena,一个标准化的真实世界评估框架,旨在弥合模拟与真实执行之间的差距。

  • 论文提出了 ManipArena,一个标准化的真实世界评估框架,旨在弥合模拟与真实执行之间的差距。
  • 该框架针对 视觉-语言-动作 (VLA) 模型 和 世界模型 的评估瓶颈,解决了现有基准以模拟器为中心、缺乏可复现真实世界评估的问题。
  • ManipArena 包含20个多样化任务、10,812条专家轨迹,强调需要语义和空间推理的推理导向型操作任务,并支持多级泛化和长期视野的移动…
Card 01 研究单位

研究单位

  • SYSU
  • X SQUARE ROBOT
  • MBZUAI
  • Tsinghua University
Card 02 论文概述

论文概述

  • 论文提出了 ManipArena,一个标准化的真实世界评估框架,旨在弥合模拟与真实执行之间的差距。
  • 该框架针对 视觉-语言-动作 (VLA) 模型世界模型 的评估瓶颈,解决了现有基准以模拟器为中心、缺乏可复现真实世界评估的问题。
  • ManipArena 包含20个多样化任务、10,812条专家轨迹,强调需要语义和空间推理的推理导向型操作任务,并支持多级泛化和长期视野的移动操作。
Card 03 核心贡献

核心贡献

  • 提出了 ManipArena 基准框架,包含 20个任务,覆盖执行推理、语义推理和移动操作三大类别。
  • 设计了 “一模型应对所有任务” 的评估协议,强制测试模型的通用推理和泛化能力而非特定任务过拟合。
  • 构建了 受控评估环境(绿幕封闭空间),通过固定照明和背景,实现可归因、可复现的泛化测量。
  • 提供了 丰富的感官诊断数据,包括56维状态和动作向量,涵盖关节电流和速度等低级信号。
  • 创建了 Real-to-Sim (Real2Sim) 同步环境,通过3D扫描和高保真物理模拟,实现跨域的精确诊断和可扩展评估。
Card 04 方法描述

方法描述

  • 采用 服务器端推理 架构,参与者通过HTTP端点暴露模型,主办方统一处理机器人控制、数据收集和评分。
  • 任务设计分为执行推理(挑战在于“如何执行”)、语义推理(挑战在于“做什么”)和移动操作(长视野导航与操作)三类。
  • 通过 分层OOD评估设计,将10次试验分为域内、视觉偏移和语义OOD三个难度级别,以测量泛化曲线。
  • 使用 X2Robot 双手系统 作为统一机器人平台,消除具体差异,使性能差异反映策略能力。
Card 05 数据集与资源

数据集与资源

  • 使用了自建的 ManipArena 数据集,包含 10,812条遥操作轨迹(约188小时),覆盖20个任务。
  • 数据以 LeRobot v2.1 格式 发布,包含三路同步视频流(640×480,20fps)和56/62维本体感受状态。
  • 提供了 Real2Sim仿真环境,基于IsaacLab构建,使用3D Gaussian Splatting重建场景和Hunyuan3D生成物体。
Card 06 评估与结果

评估与结果

  • 15个桌面任务 上评估了三种基线模型:π₀.₅-Singleπ₀.₅-OneModelDreamZero
  • 主要评估指标为 任务总分(0-100)成功率(SR),采用部分得分机制以提供细粒度诊断。
  • 关键结果:基准远未饱和,最佳总分仅为 640.5/1500(42.7%);无单一模型主导,不同模型在不同任务上各有优势。
  • 多任务训练带来权衡:提升了语义识别能力,但牺牲了任务特定的程序性知识记忆。