一眼看懂
封面预览
提出了一个双系统框架,将高层语义规划与低层视觉运动执行解耦,解决现有 VLA 模型在长时序、依赖记忆任务中的局限性
- 提出了一个双系统框架,将高层语义规划与低层视觉运动执行解耦,解决现有 VLA 模型在长时序、依赖记忆任务中的局限性
- 核心问题是现有 VLA 策略依赖有限的观察窗口和端到端动作预测,在部分可观测、遮挡和多阶段依赖的任务中表现脆弱
- 框架包含基于 VLM 的高层规划器(负责任务分解、记忆管理、验证和反思恢复)和基于 VLA 的低层执行器(进行几何导向的动作生成)
Card 01
研究单位
研究单位
- 北京邮电大学 (Beijing University of Posts and Telecommunications)
- 灵感智能 (InspireOmni AI)
- 清华大学 (Tsinghua University)
Card 02
论文概述
论文概述
- 提出了一个双系统框架,将高层语义规划与低层视觉运动执行解耦,解决现有 VLA 模型在长时序、依赖记忆任务中的局限性
- 核心问题是现有 VLA 策略依赖有限的观察窗口和端到端动作预测,在部分可观测、遮挡和多阶段依赖的任务中表现脆弱
- 框架包含基于 VLM 的高层规划器(负责任务分解、记忆管理、验证和反思恢复)和基于 VLA 的低层执行器(进行几何导向的动作生成)
Card 03
核心贡献
核心贡献
- 引入双系统框架,将高层规划与低层控制解耦,用于长时序机器人操作
- 开发了基于 VLM 的规划器,在闭环决策过程中统一任务分解、记忆管理、验证和反思恢复
- 提出了基于 VLA 的执行器,在去干扰过滤观测下进行几何导向的动作生成,在复杂环境中实现稳健执行
Card 04
方法描述
方法描述
- 高层规划器:基于预训练 VLM,构建了任务规划器、记忆管理器和反思引擎三个功能模块,使用结构化记忆(情景历史、工作记忆、错误寄存器)
- 低层执行器:由几何导向感知模块(基于零样本分割的掩码过滤)、基于扩散的技能库和局部执行监控器组成
- 关键创新:几何保留过滤观测(掩码传播机制抑制干扰区域)、基于扩散的动作生成、验证驱动的闭环恢复机制
Card 05
数据集与资源
数据集与资源
- 数据集:RMBench 基准的 5 个代表性任务(M(1) 子集:Observe and Pick Up、Rearrange Blocks;M(n) 子集:Battery Try、Blocks Ranking Try、Press Button)
- 训练数据:每个任务 50 个专家演示
- 优化配置:30k 优化步数
- 评估协议:100 次 rollout 评估
Card 06
评估与结果
评估与结果
- 在 RMBench 任务上平均成功率达 32.4%,最强基线为 9.8%
- M(n) 任务上达 38.7%,基线为 9.0%;M(1) 任务上达 23.0%,基线为 15.0%
- 消融实验表明:情景历史显著提升记忆密集型任务性能(6.7%→27.7%),验证和反思机制提升失败恢复能力(8.0%→28.0%)
- 关键任务表现:Battery Try 46%、Blocks Ranking Try 60%、Rearrange Blocks 38%