论文提出 ChemBot 框架，这是一个双层闭环系统，整合自主 AI 代理与进度感知的 VLA 模型（Skill-VLA），用于化学实验室自动…

论文详情

Long-Term Memory for VLA-based Agents in Open-World Task Execution

2026-04-17 · 原文 · 翻译 · 2604.15671

论文提出 ChemBot 框架，这是一个双层闭环系统，整合自主 AI 代理与进度感知的 VLA 模型（Skill-VLA），用于化学实验室自动化任务的层次化分解与执行。研究旨在解决现有 VLA 模型在复杂化学实验场景中缺乏长期推理能力、无法巩固成功策略、以及规划与执行解耦导致低效试错的问题。核心创新在于引入双层记忆架构以积累成功轨迹，并通过 MCP 服务器协调子代理与工具，实现持续的经验积累与高效任务编排。

5 分钟读完 6 张阅读卡南京大学

一眼看懂封面预览

论文提出 ChemBot 框架，这是一个双层闭环系统，整合自主 AI 代理与进度感知的 VLA 模型（Skill-VLA），用于化学实验室自动…

论文提出 ChemBot 框架，这是一个双层闭环系统，整合自主 AI 代理与进度感知的 VLA 模型（Skill-VLA），用于化学实验室自动…
研究旨在解决现有 VLA 模型在复杂化学实验场景中缺乏长期推理能力、无法巩固成功策略、以及规划与执行解耦导致低效试错的问题。
核心创新在于引入双层记忆架构以积累成功轨迹，并通过 MCP 服务器协调子代理与工具，实现持续的经验积累与高效任务编排。

Card 01 研究单位

研究单位

南京大学
LimX Dynamics

Card 02 论文概述

论文概述

论文提出 ChemBot 框架，这是一个双层闭环系统，整合自主 AI 代理与进度感知的 VLA 模型（Skill-VLA），用于化学实验室自动化任务的层次化分解与执行。
研究旨在解决现有 VLA 模型在复杂化学实验场景中缺乏长期推理能力、无法巩固成功策略、以及规划与执行解耦导致低效试错的问题。
核心创新在于引入双层记忆架构以积累成功轨迹，并通过 MCP 服务器协调子代理与工具，实现持续的经验积累与高效任务编排。

Card 03 核心贡献

核心贡献

提出完整的 ChemBot 框架，融合链式回溯任务分解与双层记忆机制，实现鲁棒的长期推理。
设计 Skill-VLA 模块，在基础 VLA 模型上增加进度预测头与连续推理管道，支持实时状态监控与自适应执行。
通过真实协作机器人实验证明，该方法在安全性、精度与任务成功率上显著优于现有 VLA 基线。

Card 04 方法描述

方法描述

采用 Agent-as-Planner, VLA-as-Skill 层次化架构：高层 AI 代理负责全局规划，底层 VLA 模型作为技能执行器。
多代理增量任务规划包含 Scene Describer（解析场景结构）、Subtask Generator（迭代生成原子任务）和 Reflector（验证并回溯）。
双层记忆机制包括：短期工作记忆以结构化表示实时场景与任务状态；长期记忆持久保存成功轨迹以支持语义检索与经验复用。
Skill-VLA 基于 GR00T 模型，增加轻量级进度预测头，通过跨注意力机制估计实时任务进度（0-1），实现闭环自主执行。
引入异步连续推理机制，利用预测的未来状态作为决策锚点，结合 Training-time RTC 技术缓解推理延迟导致的轨迹不连续性。

Card 05 数据集与资源

数据集与资源

构建化学实验任务分解数据集：基于 CLARIFY 数据集扩展，结合视觉增强与人类标注，最终形成 92 个高质量多模态样本。
构建化学操作数据集：使用 UR3 协作机器人遥操作采集，包含 5,459 条专家轨迹，涵盖 12 类基础化学操作，平均长度 872.2 帧。
模型基于 GR00T 进行微调，训练使用 8 个 NVIDIA A100 GPU，推理在配备 NVIDIA RTX 5090 GPU 的移动工作站上完成。

Card 06 评估与结果

评估与结果

化学任务分解评估：使用改进的编辑距离（结合语义对齐与位置惩罚）、BERTScore、ROUGE 分数作为指标。实验显示 Qwen3-VL-Flash 在分解效率与准确性上表现最佳。
真实世界评估：在 UR3 机器人平台上进行，针对沉淀（11步）、加热溶解（7步）、中和（6步）三类化学实验。采用多级评分机制计算成功率（SR）。
关键结果：Skill-VLA 在所有任务上均优于全轨迹基线（如 π0.5、GR00T），验证了子任务级训练与进度预测在长期任务中的优势；异步推理机制显著提升了轨迹平滑度与执行连续性。