返回列表 VLA / Vision-Language-Action 每日论文卡
MEM: Multi-Scale Embodied Memory for Vision Language Action Models
论文提出了 MEM (Multi-Scale Embodied Memory) ,一个为视觉语言动作模型设计的多尺度具身记忆系统

论文详情

MEM: Multi-Scale Embodied Memory for Vision Language Action Models

2026-03-04 · 原文 · 翻译 · 2603.03596

论文提出了 MEM (Multi-Scale Embodied Memory) ,一个为视觉语言动作模型设计的多尺度具身记忆系统 核心目标是通过结合不同模态的记忆来表示不同抽象层次的事件,解决机器人策略中长期和短期记忆的需求 解决了现有VLA模型在长时域任务中记忆表示效率低下、难以处理部分可观测性和上下文适应能力不足的问题

4 分钟读完 6 张阅读卡 Physical Intelligence
一眼看懂 封面预览

论文提出了 MEM (Multi-Scale Embodied Memory) ,一个为视觉语言动作模型设计的多尺度具身记忆系统

  • 论文提出了 MEM (Multi-Scale Embodied Memory) ,一个为视觉语言动作模型设计的多尺度具身记忆系统
  • 核心目标是通过结合不同模态的记忆来表示不同抽象层次的事件,解决机器人策略中长期和短期记忆的需求
  • 解决了现有VLA模型在长时域任务中记忆表示效率低下、难以处理部分可观测性和上下文适应能力不足的问题
Card 01 研究单位

研究单位

  • Physical Intelligence
  • Stanford University
  • UC Berkeley
  • MIT
Card 02 论文概述

论文概述

  • 论文提出了 MEM (Multi-Scale Embodied Memory) ,一个为视觉语言动作模型设计的多尺度具身记忆系统
  • 核心目标是通过结合不同模态的记忆来表示不同抽象层次的事件,解决机器人策略中长期和短期记忆的需求
  • 解决了现有VLA模型在长时域任务中记忆表示效率低下、难以处理部分可观测性和上下文适应能力不足的问题
Card 03 核心贡献

核心贡献

  • 提出了 MEM系统 ,将基于视频的短时域记忆与基于语言的长时域记忆相结合
  • 设计了高效的 视频编码器架构 ,使用时空可分离注意力机制压缩短期视觉记忆
  • 引入了 语言记忆机制 ,通过LLM生成语义事件摘要来跟踪长期记忆
  • 在长达15分钟的长时域操作任务中实现了先进的性能
  • 展示了记忆系统使策略能够智能地在上下文中适应操作策略
Card 04 方法描述

方法描述

  • 使用 视频编码器 处理短期密集视觉记忆:扩展ViT架构,每4层添加因果时间注意力,丢弃过去时间步的token以压缩输入
  • 使用 语言记忆机制 处理长期语义记忆:高级策略预测语言记忆摘要mt+1,跟踪已完成步骤和语义事件
  • 将系统整合到 π0.6 VLA模型 中,保持与单图像VLA相同的token数量和推理延迟
  • 预训练使用包含机器人演示、策略rollout数据、人类纠正、视觉语言任务和视频语言任务的混合数据
Card 05 数据集与资源

数据集与资源

  • 预训练数据包括远程操作机器人演示、策略rollout数据、人类纠正数据、视觉语言任务和视频语言任务
  • 基于 Gemma3-4B VLM 初始化,包含 860M参数 的流匹配动作专家
  • 训练使用 NVIDIA H100 GPU ,输入分辨率为448x448像素,支持最多四个摄像头流
  • 预训练使用6帧观测序列(间隔1秒),后训练扩展到最多18帧和54秒的观测记忆
Card 06 评估与结果

评估与结果

  • 在多种长时域操作任务上评估,包括食谱准备、厨房清洁、烤奶酪三明治制作等
  • 主要评估指标为任务成功率和进度评分
  • 在食谱准备任务中,MEM相比无记忆基线显著提高成功率
  • 在厨房清洁任务中,MEM能够有效跟踪多步骤清洁过程
  • 消融实验显示视频记忆和语言记忆都是必要的,两者结合效果最佳
  • 在记忆能力测试中,MEM在处理部分可观测性、计数和空间记忆方面优于其他方法
  • MEM在短时域灵巧操作任务上也匹配了无记忆VLA的性能