论文提出了 MEM (Multi-Scale Embodied Memory) ，一个为视觉语言动作模型设计的多尺度具身记忆系统

论文详情

MEM: Multi-Scale Embodied Memory for Vision Language Action Models

2026-03-04 · 原文 · 翻译 · 2603.03596

论文提出了 MEM (Multi-Scale Embodied Memory) ，一个为视觉语言动作模型设计的多尺度具身记忆系统核心目标是通过结合不同模态的记忆来表示不同抽象层次的事件，解决机器人策略中长期和短期记忆的需求解决了现有VLA模型在长时域任务中记忆表示效率低下、难以处理部分可观测性和上下文适应能力不足的问题

4 分钟读完 6 张阅读卡 Physical Intelligence

一眼看懂封面预览

论文提出了 MEM (Multi-Scale Embodied Memory) ，一个为视觉语言动作模型设计的多尺度具身记忆系统

论文提出了 MEM (Multi-Scale Embodied Memory) ，一个为视觉语言动作模型设计的多尺度具身记忆系统
核心目标是通过结合不同模态的记忆来表示不同抽象层次的事件，解决机器人策略中长期和短期记忆的需求
解决了现有VLA模型在长时域任务中记忆表示效率低下、难以处理部分可观测性和上下文适应能力不足的问题

Card 01 研究单位

研究单位

Physical Intelligence
Stanford University
UC Berkeley
MIT

Card 02 论文概述

论文概述

论文提出了 MEM (Multi-Scale Embodied Memory) ，一个为视觉语言动作模型设计的多尺度具身记忆系统
核心目标是通过结合不同模态的记忆来表示不同抽象层次的事件，解决机器人策略中长期和短期记忆的需求
解决了现有VLA模型在长时域任务中记忆表示效率低下、难以处理部分可观测性和上下文适应能力不足的问题

Card 03 核心贡献

核心贡献

提出了 MEM系统 ，将基于视频的短时域记忆与基于语言的长时域记忆相结合
设计了高效的 视频编码器架构 ，使用时空可分离注意力机制压缩短期视觉记忆
引入了 语言记忆机制 ，通过LLM生成语义事件摘要来跟踪长期记忆
在长达15分钟的长时域操作任务中实现了先进的性能
展示了记忆系统使策略能够智能地在上下文中适应操作策略

Card 04 方法描述

方法描述

使用 视频编码器 处理短期密集视觉记忆：扩展ViT架构，每4层添加因果时间注意力，丢弃过去时间步的token以压缩输入
使用 语言记忆机制 处理长期语义记忆：高级策略预测语言记忆摘要mt+1，跟踪已完成步骤和语义事件
将系统整合到 π0.6 VLA模型 中，保持与单图像VLA相同的token数量和推理延迟
预训练使用包含机器人演示、策略rollout数据、人类纠正、视觉语言任务和视频语言任务的混合数据

Card 05 数据集与资源

数据集与资源

预训练数据包括远程操作机器人演示、策略rollout数据、人类纠正数据、视觉语言任务和视频语言任务
基于 Gemma3-4B VLM 初始化，包含 860M参数 的流匹配动作专家
训练使用 NVIDIA H100 GPU ，输入分辨率为448x448像素，支持最多四个摄像头流
预训练使用6帧观测序列（间隔1秒），后训练扩展到最多18帧和54秒的观测记忆

Card 06 评估与结果

评估与结果

在多种长时域操作任务上评估，包括食谱准备、厨房清洁、烤奶酪三明治制作等
主要评估指标为任务成功率和进度评分
在食谱准备任务中，MEM相比无记忆基线显著提高成功率
在厨房清洁任务中，MEM能够有效跟踪多步骤清洁过程
消融实验显示视频记忆和语言记忆都是必要的，两者结合效果最佳
在记忆能力测试中，MEM在处理部分可观测性、计数和空间记忆方面优于其他方法
MEM在短时域灵巧操作任务上也匹配了无记忆VLA的性能