针对视觉-语言-动作模型在分布外任务中因缺乏长期记忆、因果归因和动态干预能力而鲁棒性不足的问题，提出了SOMA系统。

论文详情

SOMA: Strategic Orchestration and Memory-Augmented System for Vision-Language-Action Model Robustness via In-Context Adaptation

2026-03-25 · 原文 · 翻译 · 2603.24060

针对视觉-语言-动作模型在分布外任务中因缺乏长期记忆、因果归因和动态干预能力而鲁棒性不足的问题，提出了SOMA系统。该系统通过在线干预管道和离线记忆整合工作流，在无需参数微调的情况下，增强冻结VLA策略的上下文适应能力。核心目标是构建一个能积累经验、诊断失败原因、动态调用工具进行干预并持续优化自身知识库的鲁棒性框架。

4 分钟读完 6 张阅读卡论文作者均来自上海交通大学并行与分布式系统研究所 (IPADS)。

一眼看懂封面预览

针对视觉-语言-动作模型在分布外任务中因缺乏长期记忆、因果归因和动态干预能力而鲁棒性不足的问题，提出了SOMA系统。

针对视觉-语言-动作模型在分布外任务中因缺乏长期记忆、因果归因和动态干预能力而鲁棒性不足的问题，提出了SOMA系统。
该系统通过在线干预管道和离线记忆整合工作流，在无需参数微调的情况下，增强冻结VLA策略的上下文适应能力。
核心目标是构建一个能积累经验、诊断失败原因、动态调用工具进行干预并持续优化自身知识库的鲁棒性框架。

Card 01 研究单位

研究单位

论文作者均来自上海交通大学并行与分布式系统研究所 (IPADS)。

Card 02 论文概述

论文概述

针对视觉-语言-动作模型在分布外任务中因缺乏长期记忆、因果归因和动态干预能力而鲁棒性不足的问题，提出了SOMA系统。
该系统通过在线干预管道和离线记忆整合工作流，在无需参数微调的情况下，增强冻结VLA策略的上下文适应能力。
核心目标是构建一个能积累经验、诊断失败原因、动态调用工具进行干预并持续优化自身知识库的鲁棒性框架。

Card 03 核心贡献

核心贡献

提出了归因驱动的记忆与可扩展干预架构，利用对比双记忆检索诊断失败原因，并通过动态编排的MCP工具链执行针对性干预。
设计了异步系统架构，将在线任务级干预与离线长期知识精炼解耦，在不中断推理的情况下实现持续改进。
在LIBERO-PRO和新提出的LIBERO-SOMA基准上，为π₀、π₀.₅和SmolVLA等多种骨干模型带来了显著的性能提升，证明了其作为即插即用鲁棒性解决方案的有效性。

Card 04 方法描述

方法描述

系统包含在线执行工作流和离线记忆整合工作流。
在线工作流包含三个核心模块：对比双记忆RAG（检索成功与失败经验）、归因驱动的LLM编排器（诊断故障并合成干预链）和可扩展的MCP干预（执行视觉、语言或时序层面的干预策略）。
离线工作流通过双阶段记忆整合，对新轨迹进行初始诊断，并与相似历史经验进行交叉任务差异分析，以提炼和更新记忆库。
创新点在于将成功与失败经验分离存储以支持对比推理，并通过LLM动态编排多种干预工具（如Paint-to-Action, Eraser, Prompt-Refiner, Chaining-Step, Encore）。

Card 05 数据集与资源

数据集与资源

使用LIBERO-PRO基准和自定义的LIBERO-SOMA基准进行评估。
测试的骨干模型包括π₀、π₀.₅和SmolVLA。
论文未明确提及模型规模、参数量及具体训练计算资源。

Card 06 评估与结果

评估与结果

在LIBERO-SOMA基准上，SOMA为各骨干模型带来了平均59.3%的绝对成功率提升，其中在长期任务链上最高实现了89.1%的绝对提升。
在LIBERO-PRO基准上，面对布局和语义偏移，SOMA使基础模型（如π₀.₅）从近乎0%的成功率，获得了加权平均54.5%的提升。
消融实验证实了双记忆库设计和双阶段记忆整合机制的有效性。