返回列表 VLA / Vision-Language-Action 每日论文卡
ManiAgent: An Agentic Framework for General Robotic Manipulation
提出 ManiAgent,一个无需训练的端到端智能体框架,用于通用机器人操作任务,直接从任务描述和环境输入生成可执行的动作序列

论文详情

ManiAgent: An Agentic Framework for General Robotic Manipulation

2025-10-13 · 原文 · 翻译 · 2510.11660

提出 ManiAgent,一个无需训练的端到端智能体框架,用于通用机器人操作任务,直接从任务描述和环境输入生成可执行的动作序列 旨在解决视觉语言动作(VLA)模型的两大关键局限:严重依赖大规模高质量演示数据、复杂推理和长程任务规划能力不足 在 SimplerEnv 基准上达到 86.8% 成功率,在真实世界抓取放置任务中达到 95.8% 成功率,并可作为自动化数据收集工具

5 分钟读完 6 张阅读卡 北京工业大学:Yi Yang、Xudong Liu(通讯作者)
一眼看懂 封面预览

提出 ManiAgent,一个无需训练的端到端智能体框架,用于通用机器人操作任务,直接从任务描述和环境输入生成可执行的动作序列

  • 提出 ManiAgent,一个无需训练的端到端智能体框架,用于通用机器人操作任务,直接从任务描述和环境输入生成可执行的动作序列
  • 旨在解决视觉语言动作(VLA)模型的两大关键局限:严重依赖大规模高质量演示数据、复杂推理和长程任务规划能力不足
  • 在 SimplerEnv 基准上达到 86.8% 成功率,在真实世界抓取放置任务中达到 95.8% 成功率,并可作为自动化数据收集工具
Card 01 研究单位

研究单位

  • 北京工业大学:Yi Yang、Xudong Liu(通讯作者)
  • 南京大学:Kefan Gu
  • 中国科学技术大学:Yuqing Wen、Hebei Li
  • Dexmal:Yucheng Zhao(项目负责人)、Tiancai Wang
Card 02 论文概述

论文概述

  • 提出 ManiAgent,一个无需训练的端到端智能体框架,用于通用机器人操作任务,直接从任务描述和环境输入生成可执行的动作序列
  • 旨在解决视觉语言动作(VLA)模型的两大关键局限:严重依赖大规模高质量演示数据、复杂推理和长程任务规划能力不足
  • 在 SimplerEnv 基准上达到 86.8% 成功率,在真实世界抓取放置任务中达到 95.8% 成功率,并可作为自动化数据收集工具
Card 03 核心贡献

核心贡献

  • 提出首个端到端智能体框架 ManiAgent,直接为通用机器人操作任务生成可执行动作序列
  • 设计了 感知-推理-控制 管道,通过协调三个专门智能体整合空间感知、任务推理和动作规划
  • 进行了广泛的模拟和真实世界实验验证,性能显著优于现有 VLA 方法(如 CogACT、Pi-0)和基于约束的方法(如 ReKep)
  • 高成功率使其可作为全自动数据收集工具,为 VLA 训练提供高质量数据支持,显著降低人力成本
Card 04 方法描述

方法描述

  • 感知智能体:利用 VLM(如 GPT-5)处理场景图像和任务描述,生成文本场景描述;结合 Florence-v2 进行开放词汇目标检测,计算 3D 空间坐标
  • 推理智能体:接收场景描述和任务指令,查询 LLM 进行状态评估和子任务分解,逐步适应动态场景并存储历史子任务作为记忆防止循环
  • 控制智能体:将子任务与目标对象信息整合,通过 LLM 生成动作序列;采用缓存机制存储参数化动作序列以加速任务完成
  • 抓取姿态生成使用 AnyGrasp,在检测到多个相同对象时使用 VLM 进行筛选
Card 05 数据集与资源

数据集与资源

  • 模拟环境:SimplerEnv 平台的 BridgeTable-v1 和 BridgeTable-v2
  • 真实世界平台: WidowX-250s 机械臂 + 2 个 Realsense D435 相机
  • 使用的 VLM:GPT-5、Claude-4-sonnet、Grok-4(商业模型);Qwen-3-235b(开源模型)
  • 目标检测:Florence-v2
  • 抓取感知:AnyGrasp
  • 数据收集:551 条轨迹,450 条有效(81.51% 成功率),耗时 19.5 小时
Card 06 评估与结果

评估与结果

  • 模拟环境:ManiAgent (GPT-5) 平均成功率 86.8%,远超 CogACT 的 51.3% 和 Pi-0 的 55.7%
  • 真实世界实验:使用 Claude-4-sonnet 或 Grok-4 时达到 95.8% 平均成功率
  • 与 ReKep 对比:ManiAgent 在相同 VLM 下成功率提升 37.5%-75%
  • 自动化数据收集:使用 ManiAgent 收集的数据训练的 CogACT 模型可正常执行动作,验证了数据有效性