论文提出了 ROSClaw，这是一个面向异构多智能体协作的层次化语义-物理框架，旨在解决大语言模型（LLMs）与具身智能体之间语义理解与物理执…

论文详情

ROSClaw: A Hierarchical Semantic-Physical Framework for Heterogeneous Multi-Agent Collaboration

2026-04-06 · 原文 · 翻译 · 2604.04664

论文提出了 ROSClaw，这是一个面向异构多智能体协作的层次化语义-物理框架，旨在解决大语言模型（LLMs）与具身智能体之间语义理解与物理执行的关键鸿沟。现有框架在处理长时序任务时存在语义与分布不一致、依赖人工重置环境以及缺乏显式物理约束等问题，本框架通过统一视觉-语言模型（VLM）控制器整合策略学习与任务执行。该框架建立了一个从信息空间、软件系统到物理世界的闭环流程，实现了跨平台的快速迁移和技能的持续改进…

5 分钟读完 6 张阅读卡同济大学

一眼看懂封面预览

论文提出了 ROSClaw，这是一个面向异构多智能体协作的层次化语义-物理框架，旨在解决大语言模型（LLMs）与具身智能体之间语义理解与物理执…

论文提出了 ROSClaw，这是一个面向异构多智能体协作的层次化语义-物理框架，旨在解决大语言模型（LLMs）与具身智能体之间语义理解与物理执…
现有框架在处理长时序任务时存在语义与分布不一致、依赖人工重置环境以及缺乏显式物理约束等问题，本框架通过统一视觉-语言模型（VLM）控制器整合策…
该框架建立了一个从信息空间、软件系统到物理世界的闭环流程，实现了跨平台的快速迁移和技能的持续改进，减少了对特定机器人开发流程的依赖。

Card 01 研究单位

研究单位

同济大学
上海自主智能无人系统科学中心
自主智能无人系统全国重点实验室
上海智能无人系统研究院

Card 02 论文概述

论文概述

论文提出了 ROSClaw，这是一个面向异构多智能体协作的层次化语义-物理框架，旨在解决大语言模型（LLMs）与具身智能体之间语义理解与物理执行的关键鸿沟。
现有框架在处理长时序任务时存在语义与分布不一致、依赖人工重置环境以及缺乏显式物理约束等问题，本框架通过统一视觉-语言模型（VLM）控制器整合策略学习与任务执行。
该框架建立了一个从信息空间、软件系统到物理世界的闭环流程，实现了跨平台的快速迁移和技能的持续改进，减少了对特定机器人开发流程的依赖。

Card 03 核心贡献

核心贡献

提出了 ROSClaw 系统架构，这是一种跨越信息空间、软件系统和物理世界的三层语义-物理架构，解耦了宏观知识引擎与底层高频物理控制。
引入了基于 e-URDF 的物理约束机制以及数据收集与状态累积机制，通过无头数字孪生沙盒（基于 Isaac Lab）在执行前进行碰撞检测和关节扭矩验证，确保物理可行性。
在分布式硬件平台上进行了真实世界验证，包括人形机器人、固定机械臂和移动操作系统的协作任务，证明了框架在跨模态和跨区域约束下的鲁棒协作能力。

Card 04 方法描述

方法描述

框架采用三层架构：认知层负责高频任务分解和语义理解；协调自动化层通过 Online Tool Pool 抽象硬件异构性，并利用 e-URDF 和数字孪生引擎进行物理可行性验证；物理世界层负责高频机器人控制。
创新点在于引入了异步解耦机制，将低频语义规划与高频物理控制分离，并通过 Local Resource Pool 持续积累多模态观测和执行轨迹，支持策略迭代优化。
利用 OpenClaw 系统作为中间件，将抽象指令自动映射为可执行的软件调用（SDKs, APIs），实现了“一次训练，到处部署”的范式。

Card 05 数据集与资源

数据集与资源

实验环境为一个包含厨房和客厅的智能家居环境（约60平方米），配置了桌子、水槽、橱柜和冰箱等设施。
硬件资源包括：人形机器人（用于导航和运输）、固定机械臂（用于精确操作）、移动操作机器人（用于移动抓取）、RealSense 相机以及云台。
软件与工具资源包括：Isaac Lab（数字孪生仿真）、ROS（机器人操作系统）、DINO-X API（环境感知）以及自建的 Online Tool Pool 和 Local Resource Pool。

Card 06 评估与结果

评估与结果

评估在真实世界的多机器人协作场景中进行，任务包括移动机械臂开门、人形机器人导航、固定机械臂抓取水果以及人形机器人运输水果篮。
框架成功协调了异构智能体在共享环境中的操作，实现了跨区域的时序任务协作，验证了从语义推理到物理执行的闭环一致性。
实验结果表明，与传统的多智能体编排开发流程相比，该框架将协调多云台舞蹈行为的生成时间缩短至约 3分钟，并实现了自动化的硬件验证和SDK级程序合成，显著减少了人工干预。