提出了一个双系统框架，将高层语义规划与低层视觉运动执行解耦，解决现有 VLA 模型在长时序、依赖记忆任务中的局限性

论文详情

Goal2Skill: Long-Horizon Manipulation with Adaptive Planning and Reflection

2026-04-15 · 原文 · 翻译 · 2604.13942

提出了一个双系统框架，将高层语义规划与低层视觉运动执行解耦，解决现有 VLA 模型在长时序、依赖记忆任务中的局限性核心问题是现有 VLA 策略依赖有限的观察窗口和端到端动作预测，在部分可观测、遮挡和多阶段依赖的任务中表现脆弱框架包含基于 VLM 的高层规划器（负责任务分解、记忆管理、验证和反思恢复）和基于 VLA 的低层执行器（进行几何导向的动作生成）

4 分钟读完 6 张阅读卡北京邮电大学 (Beijing University of Posts and Telecommuni…

一眼看懂封面预览

提出了一个双系统框架，将高层语义规划与低层视觉运动执行解耦，解决现有 VLA 模型在长时序、依赖记忆任务中的局限性

提出了一个双系统框架，将高层语义规划与低层视觉运动执行解耦，解决现有 VLA 模型在长时序、依赖记忆任务中的局限性
核心问题是现有 VLA 策略依赖有限的观察窗口和端到端动作预测，在部分可观测、遮挡和多阶段依赖的任务中表现脆弱
框架包含基于 VLM 的高层规划器（负责任务分解、记忆管理、验证和反思恢复）和基于 VLA 的低层执行器（进行几何导向的动作生成）

Card 01 研究单位

研究单位

北京邮电大学 (Beijing University of Posts and Telecommunications)
灵感智能 (InspireOmni AI)
清华大学 (Tsinghua University)

Card 02 论文概述

论文概述

提出了一个双系统框架，将高层语义规划与低层视觉运动执行解耦，解决现有 VLA 模型在长时序、依赖记忆任务中的局限性
核心问题是现有 VLA 策略依赖有限的观察窗口和端到端动作预测，在部分可观测、遮挡和多阶段依赖的任务中表现脆弱
框架包含基于 VLM 的高层规划器（负责任务分解、记忆管理、验证和反思恢复）和基于 VLA 的低层执行器（进行几何导向的动作生成）

Card 03 核心贡献

核心贡献

引入双系统框架，将高层规划与低层控制解耦，用于长时序机器人操作
开发了基于 VLM 的规划器，在闭环决策过程中统一任务分解、记忆管理、验证和反思恢复
提出了基于 VLA 的执行器，在去干扰过滤观测下进行几何导向的动作生成，在复杂环境中实现稳健执行

Card 04 方法描述

方法描述

高层规划器：基于预训练 VLM，构建了任务规划器、记忆管理器和反思引擎三个功能模块，使用结构化记忆（情景历史、工作记忆、错误寄存器）
低层执行器：由几何导向感知模块（基于零样本分割的掩码过滤）、基于扩散的技能库和局部执行监控器组成
关键创新：几何保留过滤观测（掩码传播机制抑制干扰区域）、基于扩散的动作生成、验证驱动的闭环恢复机制

Card 05 数据集与资源

数据集与资源

数据集：RMBench 基准的 5 个代表性任务（M(1) 子集：Observe and Pick Up、Rearrange Blocks；M(n) 子集：Battery Try、Blocks Ranking Try、Press Button）
训练数据：每个任务 50 个专家演示
优化配置：30k 优化步数
评估协议：100 次 rollout 评估

Card 06 评估与结果

评估与结果

在 RMBench 任务上平均成功率达 32.4%，最强基线为 9.8%
M(n) 任务上达 38.7%，基线为 9.0%；M(1) 任务上达 23.0%，基线为 15.0%
消融实验表明：情景历史显著提升记忆密集型任务性能（6.7%→27.7%），验证和反思机制提升失败恢复能力（8.0%→28.0%）
关键任务表现：Battery Try 46%、Blocks Ranking Try 60%、Rearrange Blocks 38%