返回列表 VLA / Vision-Language-Action 每日论文卡
ROSClaw: A Hierarchical Semantic-Physical Framework for Heterogeneous Multi-Agent Collaboration
论文提出了 ROSClaw,这是一个面向异构多智能体协作的层次化语义-物理框架,旨在解决大语言模型(LLMs)与具身智能体之间语义理解与物理执…

论文详情

ROSClaw: A Hierarchical Semantic-Physical Framework for Heterogeneous Multi-Agent Collaboration

2026-04-06 · 原文 · 翻译 · 2604.04664

论文提出了 ROSClaw,这是一个面向异构多智能体协作的层次化语义-物理框架,旨在解决大语言模型(LLMs)与具身智能体之间语义理解与物理执行的关键鸿沟。 现有框架在处理长时序任务时存在语义与分布不一致、依赖人工重置环境以及缺乏显式物理约束等问题,本框架通过统一视觉-语言模型(VLM)控制器整合策略学习与任务执行。 该框架建立了一个从信息空间、软件系统到物理世界的闭环流程,实现了跨平台的快速迁移和技能的持续改进…

5 分钟读完 6 张阅读卡 同济大学
一眼看懂 封面预览

论文提出了 ROSClaw,这是一个面向异构多智能体协作的层次化语义-物理框架,旨在解决大语言模型(LLMs)与具身智能体之间语义理解与物理执…

  • 论文提出了 ROSClaw,这是一个面向异构多智能体协作的层次化语义-物理框架,旨在解决大语言模型(LLMs)与具身智能体之间语义理解与物理执…
  • 现有框架在处理长时序任务时存在语义与分布不一致、依赖人工重置环境以及缺乏显式物理约束等问题,本框架通过统一视觉-语言模型(VLM)控制器整合策…
  • 该框架建立了一个从信息空间、软件系统到物理世界的闭环流程,实现了跨平台的快速迁移和技能的持续改进,减少了对特定机器人开发流程的依赖。
Card 01 研究单位

研究单位

  • 同济大学
  • 上海自主智能无人系统科学中心
  • 自主智能无人系统全国重点实验室
  • 上海智能无人系统研究院
Card 02 论文概述

论文概述

  • 论文提出了 ROSClaw,这是一个面向异构多智能体协作的层次化语义-物理框架,旨在解决大语言模型(LLMs)与具身智能体之间语义理解与物理执行的关键鸿沟。
  • 现有框架在处理长时序任务时存在语义与分布不一致、依赖人工重置环境以及缺乏显式物理约束等问题,本框架通过统一视觉-语言模型(VLM)控制器整合策略学习与任务执行。
  • 该框架建立了一个从信息空间、软件系统到物理世界的闭环流程,实现了跨平台的快速迁移和技能的持续改进,减少了对特定机器人开发流程的依赖。
Card 03 核心贡献

核心贡献

  • 提出了 ROSClaw 系统架构,这是一种跨越信息空间、软件系统和物理世界的三层语义-物理架构,解耦了宏观知识引擎与底层高频物理控制。
  • 引入了基于 e-URDF 的物理约束机制以及数据收集与状态累积机制,通过无头数字孪生沙盒(基于 Isaac Lab)在执行前进行碰撞检测和关节扭矩验证,确保物理可行性。
  • 在分布式硬件平台上进行了真实世界验证,包括人形机器人、固定机械臂和移动操作系统的协作任务,证明了框架在跨模态和跨区域约束下的鲁棒协作能力。
Card 04 方法描述

方法描述

  • 框架采用三层架构:认知层负责高频任务分解和语义理解;协调自动化层通过 Online Tool Pool 抽象硬件异构性,并利用 e-URDF 和数字孪生引擎进行物理可行性验证;物理世界层负责高频机器人控制。
  • 创新点在于引入了异步解耦机制,将低频语义规划与高频物理控制分离,并通过 Local Resource Pool 持续积累多模态观测和执行轨迹,支持策略迭代优化。
  • 利用 OpenClaw 系统作为中间件,将抽象指令自动映射为可执行的软件调用(SDKs, APIs),实现了“一次训练,到处部署”的范式。
Card 05 数据集与资源

数据集与资源

  • 实验环境为一个包含厨房和客厅的智能家居环境(约60平方米),配置了桌子、水槽、橱柜和冰箱等设施。
  • 硬件资源包括:人形机器人(用于导航和运输)、固定机械臂(用于精确操作)、移动操作机器人(用于移动抓取)、RealSense 相机以及 云台
  • 软件与工具资源包括:Isaac Lab(数字孪生仿真)、ROS(机器人操作系统)、DINO-X API(环境感知)以及自建的 Online Tool PoolLocal Resource Pool
Card 06 评估与结果

评估与结果

  • 评估在真实世界的多机器人协作场景中进行,任务包括移动机械臂开门、人形机器人导航、固定机械臂抓取水果以及人形机器人运输水果篮。
  • 框架成功协调了异构智能体在共享环境中的操作,实现了跨区域的时序任务协作,验证了从语义推理到物理执行的闭环一致性。
  • 实验结果表明,与传统的多智能体编排开发流程相比,该框架将协调多云台舞蹈行为的生成时间缩短至约 3分钟,并实现了自动化的硬件验证和SDK级程序合成,显著减少了人工干预。