一眼看懂
封面预览
提出 ManiAgent,一个无需训练的端到端智能体框架,用于通用机器人操作任务,直接从任务描述和环境输入生成可执行的动作序列
- 提出 ManiAgent,一个无需训练的端到端智能体框架,用于通用机器人操作任务,直接从任务描述和环境输入生成可执行的动作序列
- 旨在解决视觉语言动作(VLA)模型的两大关键局限:严重依赖大规模高质量演示数据、复杂推理和长程任务规划能力不足
- 在 SimplerEnv 基准上达到 86.8% 成功率,在真实世界抓取放置任务中达到 95.8% 成功率,并可作为自动化数据收集工具
Card 01
研究单位
研究单位
- 北京工业大学:Yi Yang、Xudong Liu(通讯作者)
- 南京大学:Kefan Gu
- 中国科学技术大学:Yuqing Wen、Hebei Li
- Dexmal:Yucheng Zhao(项目负责人)、Tiancai Wang
Card 02
论文概述
论文概述
- 提出 ManiAgent,一个无需训练的端到端智能体框架,用于通用机器人操作任务,直接从任务描述和环境输入生成可执行的动作序列
- 旨在解决视觉语言动作(VLA)模型的两大关键局限:严重依赖大规模高质量演示数据、复杂推理和长程任务规划能力不足
- 在 SimplerEnv 基准上达到 86.8% 成功率,在真实世界抓取放置任务中达到 95.8% 成功率,并可作为自动化数据收集工具
Card 03
核心贡献
核心贡献
- 提出首个端到端智能体框架 ManiAgent,直接为通用机器人操作任务生成可执行动作序列
- 设计了 感知-推理-控制 管道,通过协调三个专门智能体整合空间感知、任务推理和动作规划
- 进行了广泛的模拟和真实世界实验验证,性能显著优于现有 VLA 方法(如 CogACT、Pi-0)和基于约束的方法(如 ReKep)
- 高成功率使其可作为全自动数据收集工具,为 VLA 训练提供高质量数据支持,显著降低人力成本
Card 04
方法描述
方法描述
- 感知智能体:利用 VLM(如 GPT-5)处理场景图像和任务描述,生成文本场景描述;结合 Florence-v2 进行开放词汇目标检测,计算 3D 空间坐标
- 推理智能体:接收场景描述和任务指令,查询 LLM 进行状态评估和子任务分解,逐步适应动态场景并存储历史子任务作为记忆防止循环
- 控制智能体:将子任务与目标对象信息整合,通过 LLM 生成动作序列;采用缓存机制存储参数化动作序列以加速任务完成
- 抓取姿态生成使用 AnyGrasp,在检测到多个相同对象时使用 VLM 进行筛选
Card 05
数据集与资源
数据集与资源
- 模拟环境:SimplerEnv 平台的 BridgeTable-v1 和 BridgeTable-v2
- 真实世界平台: WidowX-250s 机械臂 + 2 个 Realsense D435 相机
- 使用的 VLM:GPT-5、Claude-4-sonnet、Grok-4(商业模型);Qwen-3-235b(开源模型)
- 目标检测:Florence-v2
- 抓取感知:AnyGrasp
- 数据收集:551 条轨迹,450 条有效(81.51% 成功率),耗时 19.5 小时
Card 06
评估与结果
评估与结果
- 模拟环境:ManiAgent (GPT-5) 平均成功率 86.8%,远超 CogACT 的 51.3% 和 Pi-0 的 55.7%
- 真实世界实验:使用 Claude-4-sonnet 或 Grok-4 时达到 95.8% 平均成功率
- 与 ReKep 对比:ManiAgent 在相同 VLM 下成功率提升 37.5%-75%
- 自动化数据收集:使用 ManiAgent 收集的数据训练的 CogACT 模型可正常执行动作,验证了数据有效性