RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation

论文详情

RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation

2025-06-07 · 原文 · 翻译 · 2506.06677

提出了 RoboCerebra，这是一个大规模基准测试，旨在评估机器人操作中的长时域规划和高级推理能力（即 System 2 能力）。解决了现有基准测试主要关注反应式 System 1 策略，而在时间尺度和结构复杂性上受限，无法充分评估 VLMs 在长时域任务中推理能力的问题。论文包含一个大规模仿真数据集、一个分层规划框架以及针对规划、反思和记忆能力的多维评估协议。

5 分钟读完 6 张阅读卡 Beihang University（北京航空航天大学）

一眼看懂封面预览

提出了 RoboCerebra，这是一个大规模基准测试，旨在评估机器人操作中的长时域规划和高级推理能力（即 System 2 能力）。

提出了 RoboCerebra，这是一个大规模基准测试，旨在评估机器人操作中的长时域规划和高级推理能力（即 System 2 能力）。
解决了现有基准测试主要关注反应式 System 1 策略，而在时间尺度和结构复杂性上受限，无法充分评估 VLMs 在长时域任务中推理能力的问题。
论文包含一个大规模仿真数据集、一个分层规划框架以及针对规划、反思和记忆能力的多维评估协议。

Card 01 研究单位

研究单位

Beihang University（北京航空航天大学）
National University of Singapore（新加坡国立大学）
Shanghai Jiao Tong University（上海交通大学）

Card 02 论文概述

论文概述

提出了 RoboCerebra，这是一个大规模基准测试，旨在评估机器人操作中的长时域规划和高级推理能力（即 System 2 能力）。
解决了现有基准测试主要关注反应式 System 1 策略，而在时间尺度和结构复杂性上受限，无法充分评估 VLMs 在长时域任务中推理能力的问题。
论文包含一个大规模仿真数据集、一个分层规划框架以及针对规划、反思和记忆能力的多维评估协议。

Card 03 核心贡献

核心贡献

构建了包含 1,000 条人类标注轨迹 的大规模仿真数据集，其动作序列长度约为现有基准的 6 倍，并包含动态场景变化和细粒度子任务标注。
提出了 分层规划与执行框架，结合了高级 VLM 规划器和低级 VLA 控制器，实现了语义推理与精确控制的结合。
设计了针对 System 2 能力的多维评估协议，涵盖规划、反思和记忆三个认知维度，用于系统性地评估 VLMs 在长时域任务中的表现。
开发了一种自上而下的数据生成流水线，利用 GPT 生成任务并分解子任务，通过人类操作员在仿真中执行以获取高质量轨迹。

Card 04 方法描述

方法描述

采用自上而下的流水线构建数据：GPT-o3-mini 根据环境上下文生成高层任务指令并分解为连贯的子任务序列，人类操作员在仿真环境中执行这些子任务。
提出了 HPE Framework：高级 VLM（System 2）处理低频观察以更新存储在记忆库中的子目标，低级 VLA（System 1）根据高频视觉输入执行精细动作。
训练过程分为两阶段：第一阶段微调 OpenVLA 模型以获取低级控制能力；第二阶段使用视频-指令对通过对比监督微调 VLM，使其具备时间定位和进度监控能力。

Card 05 数据集与资源

数据集与资源

RoboCerebra 数据集：包含 1,000 条轨迹，100 种任务变体，平均每项任务包含 9.1 个原子步骤，平均轨迹长度为 2,972.4 步。
模型规模：System 1 使用 OpenVLA（微调），System 2 评估了 GPT-4o、Qwen2.5-VL 和 LLaVA-Next-Video。
训练资源：在 8 张 NVIDIA A100 GPU 上进行 OpenVLA 模型的微调。

Card 06 评估与结果

评估与结果

评估环境涵盖 6 种子任务类型：Ideal、Memory Exploration、Memory Execution、Random Disturbance、Observation Mismatching 和 Mix。
主要指标包括任务成功率 (SR)、平均规划匹配精度 ($Acc_P$)、规划效率 ($\eta$) 和动作完成精度 ($Acc_C$)。
实验结果显示，仅依靠 System 1 (OpenVLA) 在长时域任务中表现不佳，成功率极低。
引入 System 2 (GPT-4o) 显著提升了复杂任务（如 Mix 场景）的性能，成功率从 0% 提升至约 13.21%。
GPT-4o 在规划准确率和任务成功率上均优于其他评估的 VLM 模型。