返回列表 VLA / Vision-Language-Action 每日论文卡

RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation

论文详情

RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation

2025-06-07 · 原文 · 翻译 · 2506.06677

提出了 RoboCerebra,这是一个大规模基准测试,旨在评估机器人操作中的长时域规划和高级推理能力(即 System 2 能力)。 解决了现有基准测试主要关注反应式 System 1 策略,而在时间尺度和结构复杂性上受限,无法充分评估 VLMs 在长时域任务中推理能力的问题。 论文包含一个大规模仿真数据集、一个分层规划框架以及针对规划、反思和记忆能力的多维评估协议。

5 分钟读完 6 张阅读卡 Beihang University(北京航空航天大学)
一眼看懂 封面预览

提出了 RoboCerebra,这是一个大规模基准测试,旨在评估机器人操作中的长时域规划和高级推理能力(即 System 2 能力)。

  • 提出了 RoboCerebra,这是一个大规模基准测试,旨在评估机器人操作中的长时域规划和高级推理能力(即 System 2 能力)。
  • 解决了现有基准测试主要关注反应式 System 1 策略,而在时间尺度和结构复杂性上受限,无法充分评估 VLMs 在长时域任务中推理能力的问题。
  • 论文包含一个大规模仿真数据集、一个分层规划框架以及针对规划、反思和记忆能力的多维评估协议。
Card 01 研究单位

研究单位

  • Beihang University(北京航空航天大学)
  • National University of Singapore(新加坡国立大学)
  • Shanghai Jiao Tong University(上海交通大学)
Card 02 论文概述

论文概述

  • 提出了 RoboCerebra,这是一个大规模基准测试,旨在评估机器人操作中的长时域规划和高级推理能力(即 System 2 能力)。
  • 解决了现有基准测试主要关注反应式 System 1 策略,而在时间尺度和结构复杂性上受限,无法充分评估 VLMs 在长时域任务中推理能力的问题。
  • 论文包含一个大规模仿真数据集、一个分层规划框架以及针对规划、反思和记忆能力的多维评估协议。
Card 03 核心贡献

核心贡献

  • 构建了包含 1,000 条人类标注轨迹 的大规模仿真数据集,其动作序列长度约为现有基准的 6 倍,并包含动态场景变化和细粒度子任务标注。
  • 提出了 分层规划与执行框架,结合了高级 VLM 规划器和低级 VLA 控制器,实现了语义推理与精确控制的结合。
  • 设计了针对 System 2 能力的多维评估协议,涵盖规划、反思和记忆三个认知维度,用于系统性地评估 VLMs 在长时域任务中的表现。
  • 开发了一种自上而下的数据生成流水线,利用 GPT 生成任务并分解子任务,通过人类操作员在仿真中执行以获取高质量轨迹。
Card 04 方法描述

方法描述

  • 采用自上而下的流水线构建数据:GPT-o3-mini 根据环境上下文生成高层任务指令并分解为连贯的子任务序列,人类操作员在仿真环境中执行这些子任务。
  • 提出了 HPE Framework:高级 VLM(System 2)处理低频观察以更新存储在记忆库中的子目标,低级 VLA(System 1)根据高频视觉输入执行精细动作。
  • 训练过程分为两阶段:第一阶段微调 OpenVLA 模型以获取低级控制能力;第二阶段使用视频-指令对通过对比监督微调 VLM,使其具备时间定位和进度监控能力。
Card 05 数据集与资源

数据集与资源

  • RoboCerebra 数据集:包含 1,000 条轨迹,100 种任务变体,平均每项任务包含 9.1 个原子步骤,平均轨迹长度为 2,972.4 步。
  • 模型规模:System 1 使用 OpenVLA(微调),System 2 评估了 GPT-4oQwen2.5-VLLLaVA-Next-Video
  • 训练资源:在 8 张 NVIDIA A100 GPU 上进行 OpenVLA 模型的微调。
Card 06 评估与结果

评估与结果

  • 评估环境涵盖 6 种子任务类型:Ideal、Memory Exploration、Memory Execution、Random Disturbance、Observation Mismatching 和 Mix。
  • 主要指标包括任务成功率 (SR)、平均规划匹配精度 ($Acc_P$)、规划效率 ($\eta$) 和动作完成精度 ($Acc_C$)。
  • 实验结果显示,仅依靠 System 1 (OpenVLA) 在长时域任务中表现不佳,成功率极低。
  • 引入 System 2 (GPT-4o) 显著提升了复杂任务(如 Mix 场景)的性能,成功率从 0% 提升至约 13.21%。
  • GPT-4o 在规划准确率和任务成功率上均优于其他评估的 VLM 模型。