一眼看懂
封面预览
论文提出 ChemBot 框架,这是一个双层闭环系统,整合自主 AI 代理与进度感知的 VLA 模型(Skill-VLA),用于化学实验室自动…
- 论文提出 ChemBot 框架,这是一个双层闭环系统,整合自主 AI 代理与进度感知的 VLA 模型(Skill-VLA),用于化学实验室自动…
- 研究旨在解决现有 VLA 模型在复杂化学实验场景中缺乏长期推理能力、无法巩固成功策略、以及规划与执行解耦导致低效试错的问题。
- 核心创新在于引入双层记忆架构以积累成功轨迹,并通过 MCP 服务器协调子代理与工具,实现持续的经验积累与高效任务编排。
Card 01
研究单位
研究单位
- 南京大学
- LimX Dynamics
Card 02
论文概述
论文概述
- 论文提出 ChemBot 框架,这是一个双层闭环系统,整合自主 AI 代理与进度感知的 VLA 模型(Skill-VLA),用于化学实验室自动化任务的层次化分解与执行。
- 研究旨在解决现有 VLA 模型在复杂化学实验场景中缺乏长期推理能力、无法巩固成功策略、以及规划与执行解耦导致低效试错的问题。
- 核心创新在于引入双层记忆架构以积累成功轨迹,并通过 MCP 服务器协调子代理与工具,实现持续的经验积累与高效任务编排。
Card 03
核心贡献
核心贡献
- 提出完整的 ChemBot 框架,融合链式回溯任务分解与双层记忆机制,实现鲁棒的长期推理。
- 设计 Skill-VLA 模块,在基础 VLA 模型上增加进度预测头与连续推理管道,支持实时状态监控与自适应执行。
- 通过真实协作机器人实验证明,该方法在安全性、精度与任务成功率上显著优于现有 VLA 基线。
Card 04
方法描述
方法描述
- 采用 Agent-as-Planner, VLA-as-Skill 层次化架构:高层 AI 代理负责全局规划,底层 VLA 模型作为技能执行器。
- 多代理增量任务规划包含 Scene Describer(解析场景结构)、Subtask Generator(迭代生成原子任务)和 Reflector(验证并回溯)。
- 双层记忆机制包括:短期工作记忆以结构化表示实时场景与任务状态;长期记忆持久保存成功轨迹以支持语义检索与经验复用。
- Skill-VLA 基于 GR00T 模型,增加轻量级进度预测头,通过跨注意力机制估计实时任务进度(0-1),实现闭环自主执行。
- 引入异步连续推理机制,利用预测的未来状态作为决策锚点,结合 Training-time RTC 技术缓解推理延迟导致的轨迹不连续性。
Card 05
数据集与资源
数据集与资源
- 构建化学实验任务分解数据集:基于 CLARIFY 数据集扩展,结合视觉增强与人类标注,最终形成 92 个高质量多模态样本。
- 构建化学操作数据集:使用 UR3 协作机器人遥操作采集,包含 5,459 条专家轨迹,涵盖 12 类基础化学操作,平均长度 872.2 帧。
- 模型基于 GR00T 进行微调,训练使用 8 个 NVIDIA A100 GPU,推理在配备 NVIDIA RTX 5090 GPU 的移动工作站上完成。
Card 06
评估与结果
评估与结果
- 化学任务分解评估:使用改进的编辑距离(结合语义对齐与位置惩罚)、BERTScore、ROUGE 分数作为指标。实验显示 Qwen3-VL-Flash 在分解效率与准确性上表现最佳。
- 真实世界评估:在 UR3 机器人平台上进行,针对沉淀(11步)、加热溶解(7步)、中和(6步)三类化学实验。采用多级评分机制计算成功率(SR)。
- 关键结果:Skill-VLA 在所有任务上均优于全轨迹基线(如 π0.5、GR00T),验证了子任务级训练与进度预测在长期任务中的优势;异步推理机制显著提升了轨迹平滑度与执行连续性。