一眼看懂
封面预览
针对视觉-语言-动作模型在分布外任务中因缺乏长期记忆、因果归因和动态干预能力而鲁棒性不足的问题,提出了SOMA系统。
- 针对视觉-语言-动作模型在分布外任务中因缺乏长期记忆、因果归因和动态干预能力而鲁棒性不足的问题,提出了SOMA系统。
- 该系统通过在线干预管道和离线记忆整合工作流,在无需参数微调的情况下,增强冻结VLA策略的上下文适应能力。
- 核心目标是构建一个能积累经验、诊断失败原因、动态调用工具进行干预并持续优化自身知识库的鲁棒性框架。
Card 01
研究单位
研究单位
- 论文作者均来自上海交通大学并行与分布式系统研究所 (IPADS)。
Card 02
论文概述
论文概述
- 针对视觉-语言-动作模型在分布外任务中因缺乏长期记忆、因果归因和动态干预能力而鲁棒性不足的问题,提出了SOMA系统。
- 该系统通过在线干预管道和离线记忆整合工作流,在无需参数微调的情况下,增强冻结VLA策略的上下文适应能力。
- 核心目标是构建一个能积累经验、诊断失败原因、动态调用工具进行干预并持续优化自身知识库的鲁棒性框架。
Card 03
核心贡献
核心贡献
- 提出了归因驱动的记忆与可扩展干预架构,利用对比双记忆检索诊断失败原因,并通过动态编排的MCP工具链执行针对性干预。
- 设计了异步系统架构,将在线任务级干预与离线长期知识精炼解耦,在不中断推理的情况下实现持续改进。
- 在LIBERO-PRO和新提出的LIBERO-SOMA基准上,为π₀、π₀.₅和SmolVLA等多种骨干模型带来了显著的性能提升,证明了其作为即插即用鲁棒性解决方案的有效性。
Card 04
方法描述
方法描述
- 系统包含在线执行工作流和离线记忆整合工作流。
- 在线工作流包含三个核心模块:对比双记忆RAG(检索成功与失败经验)、归因驱动的LLM编排器(诊断故障并合成干预链)和可扩展的MCP干预(执行视觉、语言或时序层面的干预策略)。
- 离线工作流通过双阶段记忆整合,对新轨迹进行初始诊断,并与相似历史经验进行交叉任务差异分析,以提炼和更新记忆库。
- 创新点在于将成功与失败经验分离存储以支持对比推理,并通过LLM动态编排多种干预工具(如Paint-to-Action, Eraser, Prompt-Refiner, Chaining-Step, Encore)。
Card 05
数据集与资源
数据集与资源
- 使用LIBERO-PRO基准和自定义的LIBERO-SOMA基准进行评估。
- 测试的骨干模型包括π₀、π₀.₅和SmolVLA。
- 论文未明确提及模型规模、参数量及具体训练计算资源。
Card 06
评估与结果
评估与结果
- 在LIBERO-SOMA基准上,SOMA为各骨干模型带来了平均59.3%的绝对成功率提升,其中在长期任务链上最高实现了89.1%的绝对提升。
- 在LIBERO-PRO基准上,面对布局和语义偏移,SOMA使基础模型(如π₀.₅)从近乎0%的成功率,获得了加权平均54.5%的提升。
- 消融实验证实了双记忆库设计和双阶段记忆整合机制的有效性。