See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

一眼看懂封面预览

论文提出了 See, Plan, Rewind (SPR) 框架，一个具有进度感知能力的视觉-语言-动作模型，用于鲁棒的机器人操作。

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

提出了基于 空间子目标 的进度感知新范式，将任务分解为可验证的2D航点，无需辅助模型即可实现细粒度的进度跟踪。
设计了一种 基于进度的错误恢复 机制，通过监控任务进度来检测异常，并通过“倒带”将机器人恢复到分布内状态。
通过广泛实验证明了框架的有效性和卓越的 分布外鲁棒性，在LIBERO基准上超越了MolmoAct基线5%，并在LIBERO-Plus上取得了最小的性能下降（18.8%）。

Card 04 方法描述

SPR框架 包含一个连续闭环：See 阶段识别当前状态和剩余子任务；Plan 阶段规划至下一个2D航点的轨迹；Rewind 阶段在检测到异常时触发恢复。
使用自动数据生成管道，从现有演示中提取子任务边界、空间坐标和倒带轨迹。
通过监控预测的子任务计数变化和规划的2D轨迹停滞来实时检测执行异常。

Card 05 数据集与资源

Card 06 评估与结果

- 在 LIBERO 基准上，SPR的联合训练模型平均成功率达 91.8%，比MolmoAct基线高 5.0%。

- 在 LIBERO-Plus 基准上，SPR在五类扰动中平均成功率为 71.8%，性能下降仅 18.8%，展现出最优的分布外鲁棒性。

- 在真实机器人任务中，SPR在所有三个任务上均超越基线，特别是在具有挑战性的 Tidy up the Table 和 Push-T 任务上，SPR取得了 30% 和 40% 的成功率，而MolmoAct失败。