返回列表 VLA / Vision-Language-Action 每日论文卡
Goal2Skill: Long-Horizon Manipulation with Adaptive Planning and Reflection
提出了一个双系统框架,将高层语义规划与低层视觉运动执行解耦,解决现有 VLA 模型在长时序、依赖记忆任务中的局限性

论文详情

Goal2Skill: Long-Horizon Manipulation with Adaptive Planning and Reflection

2026-04-15 · 原文 · 翻译 · 2604.13942

提出了一个双系统框架,将高层语义规划与低层视觉运动执行解耦,解决现有 VLA 模型在长时序、依赖记忆任务中的局限性 核心问题是现有 VLA 策略依赖有限的观察窗口和端到端动作预测,在部分可观测、遮挡和多阶段依赖的任务中表现脆弱 框架包含基于 VLM 的高层规划器(负责任务分解、记忆管理、验证和反思恢复)和基于 VLA 的低层执行器(进行几何导向的动作生成)

4 分钟读完 6 张阅读卡 北京邮电大学 (Beijing University of Posts and Telecommuni…
一眼看懂 封面预览

提出了一个双系统框架,将高层语义规划与低层视觉运动执行解耦,解决现有 VLA 模型在长时序、依赖记忆任务中的局限性

  • 提出了一个双系统框架,将高层语义规划与低层视觉运动执行解耦,解决现有 VLA 模型在长时序、依赖记忆任务中的局限性
  • 核心问题是现有 VLA 策略依赖有限的观察窗口和端到端动作预测,在部分可观测、遮挡和多阶段依赖的任务中表现脆弱
  • 框架包含基于 VLM 的高层规划器(负责任务分解、记忆管理、验证和反思恢复)和基于 VLA 的低层执行器(进行几何导向的动作生成)
Card 01 研究单位

研究单位

  • 北京邮电大学 (Beijing University of Posts and Telecommunications)
  • 灵感智能 (InspireOmni AI)
  • 清华大学 (Tsinghua University)
Card 02 论文概述

论文概述

  • 提出了一个双系统框架,将高层语义规划与低层视觉运动执行解耦,解决现有 VLA 模型在长时序、依赖记忆任务中的局限性
  • 核心问题是现有 VLA 策略依赖有限的观察窗口和端到端动作预测,在部分可观测、遮挡和多阶段依赖的任务中表现脆弱
  • 框架包含基于 VLM 的高层规划器(负责任务分解、记忆管理、验证和反思恢复)和基于 VLA 的低层执行器(进行几何导向的动作生成)
Card 03 核心贡献

核心贡献

  • 引入双系统框架,将高层规划与低层控制解耦,用于长时序机器人操作
  • 开发了基于 VLM 的规划器,在闭环决策过程中统一任务分解、记忆管理、验证和反思恢复
  • 提出了基于 VLA 的执行器,在去干扰过滤观测下进行几何导向的动作生成,在复杂环境中实现稳健执行
Card 04 方法描述

方法描述

  • 高层规划器:基于预训练 VLM,构建了任务规划器、记忆管理器和反思引擎三个功能模块,使用结构化记忆(情景历史、工作记忆、错误寄存器)
  • 低层执行器:由几何导向感知模块(基于零样本分割的掩码过滤)、基于扩散的技能库和局部执行监控器组成
  • 关键创新:几何保留过滤观测(掩码传播机制抑制干扰区域)、基于扩散的动作生成、验证驱动的闭环恢复机制
Card 05 数据集与资源

数据集与资源

  • 数据集:RMBench 基准的 5 个代表性任务(M(1) 子集:Observe and Pick Up、Rearrange Blocks;M(n) 子集:Battery Try、Blocks Ranking Try、Press Button)
  • 训练数据:每个任务 50 个专家演示
  • 优化配置:30k 优化步数
  • 评估协议:100 次 rollout 评估
Card 06 评估与结果

评估与结果

  • 在 RMBench 任务上平均成功率达 32.4%,最强基线为 9.8%
  • M(n) 任务上达 38.7%,基线为 9.0%;M(1) 任务上达 23.0%,基线为 15.0%
  • 消融实验表明:情景历史显著提升记忆密集型任务性能(6.7%→27.7%),验证和反思机制提升失败恢复能力(8.0%→28.0%)
  • 关键任务表现:Battery Try 46%、Blocks Ranking Try 60%、Rearrange Blocks 38%