返回列表 VLA / Vision-Language-Action 每日论文卡
Long-Term Memory for VLA-based Agents in Open-World Task Execution
论文提出 ChemBot 框架,这是一个双层闭环系统,整合自主 AI 代理与进度感知的 VLA 模型(Skill-VLA),用于化学实验室自动…

论文详情

Long-Term Memory for VLA-based Agents in Open-World Task Execution

2026-04-17 · 原文 · 翻译 · 2604.15671

论文提出 ChemBot 框架,这是一个双层闭环系统,整合自主 AI 代理与进度感知的 VLA 模型(Skill-VLA),用于化学实验室自动化任务的层次化分解与执行。 研究旨在解决现有 VLA 模型在复杂化学实验场景中缺乏长期推理能力、无法巩固成功策略、以及规划与执行解耦导致低效试错的问题。 核心创新在于引入双层记忆架构以积累成功轨迹,并通过 MCP 服务器协调子代理与工具,实现持续的经验积累与高效任务编排。

5 分钟读完 6 张阅读卡 南京大学
一眼看懂 封面预览

论文提出 ChemBot 框架,这是一个双层闭环系统,整合自主 AI 代理与进度感知的 VLA 模型(Skill-VLA),用于化学实验室自动…

  • 论文提出 ChemBot 框架,这是一个双层闭环系统,整合自主 AI 代理与进度感知的 VLA 模型(Skill-VLA),用于化学实验室自动…
  • 研究旨在解决现有 VLA 模型在复杂化学实验场景中缺乏长期推理能力、无法巩固成功策略、以及规划与执行解耦导致低效试错的问题。
  • 核心创新在于引入双层记忆架构以积累成功轨迹,并通过 MCP 服务器协调子代理与工具,实现持续的经验积累与高效任务编排。
Card 01 研究单位

研究单位

  • 南京大学
  • LimX Dynamics
Card 02 论文概述

论文概述

  • 论文提出 ChemBot 框架,这是一个双层闭环系统,整合自主 AI 代理与进度感知的 VLA 模型(Skill-VLA),用于化学实验室自动化任务的层次化分解与执行。
  • 研究旨在解决现有 VLA 模型在复杂化学实验场景中缺乏长期推理能力、无法巩固成功策略、以及规划与执行解耦导致低效试错的问题。
  • 核心创新在于引入双层记忆架构以积累成功轨迹,并通过 MCP 服务器协调子代理与工具,实现持续的经验积累与高效任务编排。
Card 03 核心贡献

核心贡献

  • 提出完整的 ChemBot 框架,融合链式回溯任务分解与双层记忆机制,实现鲁棒的长期推理。
  • 设计 Skill-VLA 模块,在基础 VLA 模型上增加进度预测头与连续推理管道,支持实时状态监控与自适应执行。
  • 通过真实协作机器人实验证明,该方法在安全性、精度与任务成功率上显著优于现有 VLA 基线。
Card 04 方法描述

方法描述

  • 采用 Agent-as-Planner, VLA-as-Skill 层次化架构:高层 AI 代理负责全局规划,底层 VLA 模型作为技能执行器。
  • 多代理增量任务规划包含 Scene Describer(解析场景结构)、Subtask Generator(迭代生成原子任务)和 Reflector(验证并回溯)。
  • 双层记忆机制包括:短期工作记忆以结构化表示实时场景与任务状态;长期记忆持久保存成功轨迹以支持语义检索与经验复用。
  • Skill-VLA 基于 GR00T 模型,增加轻量级进度预测头,通过跨注意力机制估计实时任务进度(0-1),实现闭环自主执行。
  • 引入异步连续推理机制,利用预测的未来状态作为决策锚点,结合 Training-time RTC 技术缓解推理延迟导致的轨迹不连续性。
Card 05 数据集与资源

数据集与资源

  • 构建化学实验任务分解数据集:基于 CLARIFY 数据集扩展,结合视觉增强与人类标注,最终形成 92 个高质量多模态样本。
  • 构建化学操作数据集:使用 UR3 协作机器人遥操作采集,包含 5,459 条专家轨迹,涵盖 12 类基础化学操作,平均长度 872.2 帧。
  • 模型基于 GR00T 进行微调,训练使用 8 个 NVIDIA A100 GPU,推理在配备 NVIDIA RTX 5090 GPU 的移动工作站上完成。
Card 06 评估与结果

评估与结果

  • 化学任务分解评估:使用改进的编辑距离(结合语义对齐与位置惩罚)、BERTScoreROUGE 分数作为指标。实验显示 Qwen3-VL-Flash 在分解效率与准确性上表现最佳。
  • 真实世界评估:在 UR3 机器人平台上进行,针对沉淀(11步)、加热溶解(7步)、中和(6步)三类化学实验。采用多级评分机制计算成功率(SR)。
  • 关键结果:Skill-VLA 在所有任务上均优于全轨迹基线(如 π0.5、GR00T),验证了子任务级训练与进度预测在长期任务中的优势;异步推理机制显著提升了轨迹平滑度与执行连续性。