返回列表 VLA / Vision-Language-Action 每日论文卡
SOMA: Strategic Orchestration and Memory-Augmented System for Vision-Language-Action Model Robustness via In-Context Adaptation
针对视觉-语言-动作模型在分布外任务中因缺乏长期记忆、因果归因和动态干预能力而鲁棒性不足的问题,提出了SOMA系统。

论文详情

SOMA: Strategic Orchestration and Memory-Augmented System for Vision-Language-Action Model Robustness via In-Context Adaptation

2026-03-25 · 原文 · 翻译 · 2603.24060

针对视觉-语言-动作模型在分布外任务中因缺乏长期记忆、因果归因和动态干预能力而鲁棒性不足的问题,提出了SOMA系统。 该系统通过在线干预管道和离线记忆整合工作流,在无需参数微调的情况下,增强冻结VLA策略的上下文适应能力。 核心目标是构建一个能积累经验、诊断失败原因、动态调用工具进行干预并持续优化自身知识库的鲁棒性框架。

4 分钟读完 6 张阅读卡 论文作者均来自上海交通大学并行与分布式系统研究所 (IPADS)。
一眼看懂 封面预览

针对视觉-语言-动作模型在分布外任务中因缺乏长期记忆、因果归因和动态干预能力而鲁棒性不足的问题,提出了SOMA系统。

  • 针对视觉-语言-动作模型在分布外任务中因缺乏长期记忆、因果归因和动态干预能力而鲁棒性不足的问题,提出了SOMA系统。
  • 该系统通过在线干预管道和离线记忆整合工作流,在无需参数微调的情况下,增强冻结VLA策略的上下文适应能力。
  • 核心目标是构建一个能积累经验、诊断失败原因、动态调用工具进行干预并持续优化自身知识库的鲁棒性框架。
Card 01 研究单位

研究单位

  • 论文作者均来自上海交通大学并行与分布式系统研究所 (IPADS)
Card 02 论文概述

论文概述

  • 针对视觉-语言-动作模型在分布外任务中因缺乏长期记忆、因果归因和动态干预能力而鲁棒性不足的问题,提出了SOMA系统。
  • 该系统通过在线干预管道和离线记忆整合工作流,在无需参数微调的情况下,增强冻结VLA策略的上下文适应能力。
  • 核心目标是构建一个能积累经验、诊断失败原因、动态调用工具进行干预并持续优化自身知识库的鲁棒性框架。
Card 03 核心贡献

核心贡献

  • 提出了归因驱动的记忆与可扩展干预架构,利用对比双记忆检索诊断失败原因,并通过动态编排的MCP工具链执行针对性干预。
  • 设计了异步系统架构,将在线任务级干预与离线长期知识精炼解耦,在不中断推理的情况下实现持续改进。
  • LIBERO-PRO和新提出的LIBERO-SOMA基准上,为π₀π₀.₅SmolVLA等多种骨干模型带来了显著的性能提升,证明了其作为即插即用鲁棒性解决方案的有效性。
Card 04 方法描述

方法描述

  • 系统包含在线执行工作流离线记忆整合工作流
  • 在线工作流包含三个核心模块:对比双记忆RAG(检索成功与失败经验)、归因驱动的LLM编排器(诊断故障并合成干预链)和可扩展的MCP干预(执行视觉、语言或时序层面的干预策略)。
  • 离线工作流通过双阶段记忆整合,对新轨迹进行初始诊断,并与相似历史经验进行交叉任务差异分析,以提炼和更新记忆库。
  • 创新点在于将成功与失败经验分离存储以支持对比推理,并通过LLM动态编排多种干预工具(如Paint-to-Action, Eraser, Prompt-Refiner, Chaining-Step, Encore)。
Card 05 数据集与资源

数据集与资源

  • 使用LIBERO-PRO基准和自定义的LIBERO-SOMA基准进行评估。
  • 测试的骨干模型包括π₀π₀.₅SmolVLA
  • 论文未明确提及模型规模、参数量及具体训练计算资源。
Card 06 评估与结果

评估与结果

  • LIBERO-SOMA基准上,SOMA为各骨干模型带来了平均59.3%的绝对成功率提升,其中在长期任务链上最高实现了89.1%的绝对提升。
  • LIBERO-PRO基准上,面对布局和语义偏移,SOMA使基础模型(如π₀.₅)从近乎0%的成功率,获得了加权平均54.5%的提升。
  • 消融实验证实了双记忆库设计和双阶段记忆整合机制的有效性。