一眼看懂
封面预览
论文提出了 See, Plan, Rewind (SPR) 框架,一个具有进度感知能力的视觉-语言-动作模型,用于鲁棒的机器人操作。
- 论文提出了 See, Plan, Rewind (SPR) 框架,一个具有进度感知能力的视觉-语言-动作模型,用于鲁棒的机器人操作。
- 该框架通过将语言指令动态地分解为一系列空间子目标,使模型能够感知任务进度、预测中间状态并在失败时进行检测和恢复。
- 论文旨在解决现有VLA模型缺乏明确、空间接地且可执行的进度监控与错误恢复机制的问题。
Card 01
研究单位
研究单位
- University of Science and Technology of China
- ReLER Lab, AAII, UTS
- MBZUAI
- CUHK
- Harbin Institute of Technology (Shenzhen)
Card 02
论文概述
论文概述
- 论文提出了 See, Plan, Rewind (SPR) 框架,一个具有进度感知能力的视觉-语言-动作模型,用于鲁棒的机器人操作。
- 该框架通过将语言指令动态地分解为一系列空间子目标,使模型能够感知任务进度、预测中间状态并在失败时进行检测和恢复。
- 论文旨在解决现有VLA模型缺乏明确、空间接地且可执行的进度监控与错误恢复机制的问题。
Card 03
核心贡献
核心贡献
- 提出了基于 空间子目标 的进度感知新范式,将任务分解为可验证的2D航点,无需辅助模型即可实现细粒度的进度跟踪。
- 设计了一种 基于进度的错误恢复 机制,通过监控任务进度来检测异常,并通过“倒带”将机器人恢复到分布内状态。
- 通过广泛实验证明了框架的有效性和卓越的 分布外鲁棒性,在LIBERO基准上超越了MolmoAct基线5%,并在LIBERO-Plus上取得了最小的性能下降(18.8%)。
Card 04
方法描述
方法描述
- SPR框架 包含一个连续闭环:See 阶段识别当前状态和剩余子任务;Plan 阶段规划至下一个2D航点的轨迹;Rewind 阶段在检测到异常时触发恢复。
- 使用自动数据生成管道,从现有演示中提取子任务边界、空间坐标和倒带轨迹。
- 通过监控预测的子任务计数变化和规划的2D轨迹停滞来实时检测执行异常。
Card 05
数据集与资源
数据集与资源
- 仿真基准:LIBERO 基准套件(包含Spatial, Object, Goal, Long四个子集)及其分布外变体 LIBERO-Plus。
- 真实机器人任务:Pick up the Object, Tidy up the Table, Push-T。
- 模型基于 MolmoAct 进行构建和微调。
- 训练资源信息在提供的片段中未明确提及。
Card 06
评估与结果
评估与结果
- 评估环境:仿真基准和真实机器人平台。
- 主要评估指标:任务成功率。
- 关键实验结果:
- 在 LIBERO 基准上,SPR的联合训练模型平均成功率达 91.8%,比MolmoAct基线高 5.0%。
- 在 LIBERO-Plus 基准上,SPR在五类扰动中平均成功率为 71.8%,性能下降仅 18.8%,展现出最优的分布外鲁棒性。
- 在真实机器人任务中,SPR在所有三个任务上均超越基线,特别是在具有挑战性的 Tidy up the Table 和 Push-T 任务上,SPR取得了 30% 和 40% 的成功率,而MolmoAct失败。