返回列表 VLA / Vision-Language-Action 每日论文卡
See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation
论文提出了 See, Plan, Rewind (SPR) 框架,一个具有进度感知能力的视觉-语言-动作模型,用于鲁棒的机器人操作。

论文详情

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

2026-03-10 · 原文 · 翻译 · 2603.09292

论文提出了 See, Plan, Rewind (SPR) 框架,一个具有进度感知能力的视觉-语言-动作模型,用于鲁棒的机器人操作。 该框架通过将语言指令动态地分解为一系列空间子目标,使模型能够感知任务进度、预测中间状态并在失败时进行检测和恢复。 论文旨在解决现有VLA模型缺乏明确、空间接地且可执行的进度监控与错误恢复机制的问题。

4 分钟读完 6 张阅读卡 University of Science and Technology of China
一眼看懂 封面预览

论文提出了 See, Plan, Rewind (SPR) 框架,一个具有进度感知能力的视觉-语言-动作模型,用于鲁棒的机器人操作。

  • 论文提出了 See, Plan, Rewind (SPR) 框架,一个具有进度感知能力的视觉-语言-动作模型,用于鲁棒的机器人操作。
  • 该框架通过将语言指令动态地分解为一系列空间子目标,使模型能够感知任务进度、预测中间状态并在失败时进行检测和恢复。
  • 论文旨在解决现有VLA模型缺乏明确、空间接地且可执行的进度监控与错误恢复机制的问题。
Card 01 研究单位

研究单位

  • University of Science and Technology of China
  • ReLER Lab, AAII, UTS
  • MBZUAI
  • CUHK
  • Harbin Institute of Technology (Shenzhen)
Card 02 论文概述

论文概述

  • 论文提出了 See, Plan, Rewind (SPR) 框架,一个具有进度感知能力的视觉-语言-动作模型,用于鲁棒的机器人操作。
  • 该框架通过将语言指令动态地分解为一系列空间子目标,使模型能够感知任务进度、预测中间状态并在失败时进行检测和恢复。
  • 论文旨在解决现有VLA模型缺乏明确、空间接地且可执行的进度监控与错误恢复机制的问题。
Card 03 核心贡献

核心贡献

  • 提出了基于 空间子目标 的进度感知新范式,将任务分解为可验证的2D航点,无需辅助模型即可实现细粒度的进度跟踪。
  • 设计了一种 基于进度的错误恢复 机制,通过监控任务进度来检测异常,并通过“倒带”将机器人恢复到分布内状态。
  • 通过广泛实验证明了框架的有效性和卓越的 分布外鲁棒性,在LIBERO基准上超越了MolmoAct基线5%,并在LIBERO-Plus上取得了最小的性能下降(18.8%)。
Card 04 方法描述

方法描述

  • SPR框架 包含一个连续闭环:See 阶段识别当前状态和剩余子任务;Plan 阶段规划至下一个2D航点的轨迹;Rewind 阶段在检测到异常时触发恢复。
  • 使用自动数据生成管道,从现有演示中提取子任务边界、空间坐标和倒带轨迹。
  • 通过监控预测的子任务计数变化和规划的2D轨迹停滞来实时检测执行异常。
Card 05 数据集与资源

数据集与资源

  • 仿真基准:LIBERO 基准套件(包含Spatial, Object, Goal, Long四个子集)及其分布外变体 LIBERO-Plus
  • 真实机器人任务:Pick up the Object, Tidy up the Table, Push-T
  • 模型基于 MolmoAct 进行构建和微调。
  • 训练资源信息在提供的片段中未明确提及。
Card 06 评估与结果

评估与结果

  • 评估环境:仿真基准和真实机器人平台。
  • 主要评估指标:任务成功率。
  • 关键实验结果:

- 在 LIBERO 基准上,SPR的联合训练模型平均成功率达 91.8%,比MolmoAct基线高 5.0%

- 在 LIBERO-Plus 基准上,SPR在五类扰动中平均成功率为 71.8%,性能下降仅 18.8%,展现出最优的分布外鲁棒性。

- 在真实机器人任务中,SPR在所有三个任务上均超越基线,特别是在具有挑战性的 Tidy up the TablePush-T 任务上,SPR取得了 30%40% 的成功率,而MolmoAct失败。