论文针对现有机器人基础模型（如VLM、VLA）在真实世界服务场景中存在的“单体模型假设”与实际分布式、动态任务流程不匹配的问题，提出了Inte…

论文详情

Transforming Monolithic Foundation Models into Embodied Multi-Agent Architectures for Human-Robot Collaboration

2025-11-30 · 原文 · 翻译 · 2512.00797

论文针对现有机器人基础模型（如VLM、VLA）在真实世界服务场景中存在的“单体模型假设”与实际分布式、动态任务流程不匹配的问题，提出了InteractGen，一个LLM驱动的多智能体框架。该框架将机器人智能分解为连续感知、依赖感知规划、决策与验证、失败反思及动态人员委派等专用智能体，将基础模型视为闭环集合中的受调控组件。目标是通过多智能体编排与有意义的人机协作，实现比单纯扩展单体模型更可行、更具社会基础的自主服…

5 分钟读完 6 张阅读卡清华大学计算机科学与技术系

一眼看懂封面预览

论文针对现有机器人基础模型（如VLM、VLA）在真实世界服务场景中存在的“单体模型假设”与实际分布式、动态任务流程不匹配的问题，提出了Inte…

论文针对现有机器人基础模型（如VLM、VLA）在真实世界服务场景中存在的“单体模型假设”与实际分布式、动态任务流程不匹配的问题，提出了Inte…
该框架将机器人智能分解为连续感知、依赖感知规划、决策与验证、失败反思及动态人员委派等专用智能体，将基础模型视为闭环集合中的受调控组件。
目标是通过多智能体编排与有意义的人机协作，实现比单纯扩展单体模型更可行、更具社会基础的自主服务。

Card 01 研究单位

研究单位

清华大学 计算机科学与技术系
北京邮电大学 人工智能学院

Card 02 论文概述

论文概述

论文针对现有机器人基础模型（如VLM、VLA）在真实世界服务场景中存在的“单体模型假设”与实际分布式、动态任务流程不匹配的问题，提出了InteractGen，一个LLM驱动的多智能体框架。
该框架将机器人智能分解为连续感知、依赖感知规划、决策与验证、失败反思及动态人员委派等专用智能体，将基础模型视为闭环集合中的受调控组件。
目标是通过多智能体编排与有意义的人机协作，实现比单纯扩展单体模型更可行、更具社会基础的自主服务。

Card 03 核心贡献

核心贡献

提出了在基础模型之上设计多智能体框架的深刻见解，阐明了如何将不同类别的基础模型系统性地嵌入到为具身任务定制的架构中。
引入了InteractGen，一个LLM驱动的多智能体架构，其包含五个专用智能体（Manager, Perceiver, Planner, Assigner, Validator）和一个内存单元，支持分层推理、验证、反思及人机协作。
提出了“人作为可部署智能体”的新范式，将人类视为可在机器人面临安全、权限或灵巧性限制时被委派子任务的智能体，从而实现更自然、可扩展的团队协作。
通过在异构机器人团队上部署并进行为期三个月的真实开放使用研究，验证了框架的泛化能力、人机协作可靠性和显著的社会价值。

Card 04 方法描述

方法描述

核心方法是构建一个包含五个LLM驱动智能体的分层多智能体系统：Manager负责反思与澄清，Perceiver负责世界状态感知，Planner负责思想-动作规划，Assigner负责机器人-人类协调，Validator负责执行前验证。
引入了Thought-of-Action规划表示，通过模仿学习、思想-动作落地（使用GRPO）和拒绝采样三阶段训练流程，生成结构化、依赖感知的规划。
设计了包含长期记忆（拓扑图）和短期记忆的Memory Unit，用于维护实体关系、环境状态和任务上下文，减轻下游智能体的上下文负担。
创新点在于将基础模型作为模块化组件而非整体控制器，通过智能体间结构化协作实现闭环的具身推理。

Card 05 数据集与资源

数据集与资源

构建了一个高质量数据集，包含 2,100 个任务实例，分为三级：基础流程（300）、模糊流程（800）和动态上下文流程（1,000）。
使用 DeepSeek-R1 生成基本指令，使用 GPT-4o 进行歧义注入。
训练使用 Qwen3-8B 作为规划器基础模型，通过三阶段流程进行微调。

Card 06 评估与结果

评估与结果

评估环境包括真实世界（多种机器人形态：移动基座、轮式机器人、四足机器人、移动操作臂）和仿真环境。
主要基线方法包括 ReAct, Reflexion, Mobile-Agent-v2, KnowNo, SMART-LLM, CoELA, CaPo, RoCo, Lip-LLM, EMOS, LaMMA-P, HMCF等。
关键结果显示：InteractGen 在机器人协调和人类交互性能上持续优于所有基线；结构化的ToA规划器比通用LLM更鲁棒；去中心化方法表现出较低的可靠性和弱人机协调能力。
在真实世界部署中，系统展现出强跨实体泛化能力和可靠的人机协作。