EchoVLA: Synergistic Declarative Memory for VLA-Driven Mobile Manipulation

一眼看懂封面预览

提出 EchoVLA，一种用于移动操作的内存感知视觉-语言-动作（VLA）模型，旨在解决现有VLA模型局限于短视野桌面操作的问题。

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

Card 04 方法描述

双重记忆机制：场景记忆 维护一个持久的体素化3D特征地图，表示环境的空间结构；情景记忆 以时间索引方式存储近期多模态标记序列，跟踪细粒度任务进展。
分层记忆检索：使用 粗粒度 和 细粒度 交叉注意力机制，分别从场景记忆和情景记忆中检索相关信息并融合。
部分扩散策略：为移动底座和机械臂设计独立的去噪扩散过程，实现结构化且解耦的动作生成，支持协调的运动与操作行为学习。

Card 05 数据集与资源

MoMani 数据集：包含 7,889条仿真轨迹（涵盖导航与移动操作任务）和 1,200条真实机器人演示（在TidyBot++平台上收集）。
模型训练：在 8块NVIDIA A100 GPU 上进行训练。
数据规模：仿真数据包含 5,000+ 条高质量多模态轨迹。

Card 06 评估与结果

- 在仿真中，EchoVLA在操作/导航任务和移动操作任务上分别达到 0.52 和 0.31 的最高成功率，显著超越强基线 π₀.₅（分别高出+0.20和+0.11）。

- 在真实世界实验中，EchoVLA平均成功率达到 0.44，优于 π₀.₅（0.33）和 扩散策略（0.32）。