一眼看懂
封面预览
提出了 RoboCerebra,这是一个大规模基准测试,旨在评估机器人操作中的长时域规划和高级推理能力(即 System 2 能力)。
- 提出了 RoboCerebra,这是一个大规模基准测试,旨在评估机器人操作中的长时域规划和高级推理能力(即 System 2 能力)。
- 解决了现有基准测试主要关注反应式 System 1 策略,而在时间尺度和结构复杂性上受限,无法充分评估 VLMs 在长时域任务中推理能力的问题。
- 论文包含一个大规模仿真数据集、一个分层规划框架以及针对规划、反思和记忆能力的多维评估协议。
Card 01
研究单位
研究单位
- Beihang University(北京航空航天大学)
- National University of Singapore(新加坡国立大学)
- Shanghai Jiao Tong University(上海交通大学)
Card 02
论文概述
论文概述
- 提出了 RoboCerebra,这是一个大规模基准测试,旨在评估机器人操作中的长时域规划和高级推理能力(即 System 2 能力)。
- 解决了现有基准测试主要关注反应式 System 1 策略,而在时间尺度和结构复杂性上受限,无法充分评估 VLMs 在长时域任务中推理能力的问题。
- 论文包含一个大规模仿真数据集、一个分层规划框架以及针对规划、反思和记忆能力的多维评估协议。
Card 03
核心贡献
核心贡献
- 构建了包含 1,000 条人类标注轨迹 的大规模仿真数据集,其动作序列长度约为现有基准的 6 倍,并包含动态场景变化和细粒度子任务标注。
- 提出了 分层规划与执行框架,结合了高级 VLM 规划器和低级 VLA 控制器,实现了语义推理与精确控制的结合。
- 设计了针对 System 2 能力的多维评估协议,涵盖规划、反思和记忆三个认知维度,用于系统性地评估 VLMs 在长时域任务中的表现。
- 开发了一种自上而下的数据生成流水线,利用 GPT 生成任务并分解子任务,通过人类操作员在仿真中执行以获取高质量轨迹。
Card 04
方法描述
方法描述
- 采用自上而下的流水线构建数据:GPT-o3-mini 根据环境上下文生成高层任务指令并分解为连贯的子任务序列,人类操作员在仿真环境中执行这些子任务。
- 提出了 HPE Framework:高级 VLM(System 2)处理低频观察以更新存储在记忆库中的子目标,低级 VLA(System 1)根据高频视觉输入执行精细动作。
- 训练过程分为两阶段:第一阶段微调 OpenVLA 模型以获取低级控制能力;第二阶段使用视频-指令对通过对比监督微调 VLM,使其具备时间定位和进度监控能力。
Card 05
数据集与资源
数据集与资源
- RoboCerebra 数据集:包含 1,000 条轨迹,100 种任务变体,平均每项任务包含 9.1 个原子步骤,平均轨迹长度为 2,972.4 步。
- 模型规模:System 1 使用 OpenVLA(微调),System 2 评估了 GPT-4o、Qwen2.5-VL 和 LLaVA-Next-Video。
- 训练资源:在 8 张 NVIDIA A100 GPU 上进行 OpenVLA 模型的微调。
Card 06
评估与结果
评估与结果
- 评估环境涵盖 6 种子任务类型:Ideal、Memory Exploration、Memory Execution、Random Disturbance、Observation Mismatching 和 Mix。
- 主要指标包括任务成功率 (SR)、平均规划匹配精度 ($Acc_P$)、规划效率 ($\eta$) 和动作完成精度 ($Acc_C$)。
- 实验结果显示,仅依靠 System 1 (OpenVLA) 在长时域任务中表现不佳,成功率极低。
- 引入 System 2 (GPT-4o) 显著提升了复杂任务(如 Mix 场景)的性能,成功率从 0% 提升至约 13.21%。
- GPT-4o 在规划准确率和任务成功率上均优于其他评估的 VLM 模型。