提出 ManiAgent，一个无需训练的端到端智能体框架，用于通用机器人操作任务，直接从任务描述和环境输入生成可执行的动作序列

论文详情

ManiAgent: An Agentic Framework for General Robotic Manipulation

2025-10-13 · 原文 · 翻译 · 2510.11660

提出 ManiAgent，一个无需训练的端到端智能体框架，用于通用机器人操作任务，直接从任务描述和环境输入生成可执行的动作序列旨在解决视觉语言动作（VLA）模型的两大关键局限：严重依赖大规模高质量演示数据、复杂推理和长程任务规划能力不足在 SimplerEnv 基准上达到 86.8% 成功率，在真实世界抓取放置任务中达到 95.8% 成功率，并可作为自动化数据收集工具

5 分钟读完 6 张阅读卡北京工业大学：Yi Yang、Xudong Liu（通讯作者）

一眼看懂封面预览

提出 ManiAgent，一个无需训练的端到端智能体框架，用于通用机器人操作任务，直接从任务描述和环境输入生成可执行的动作序列

提出 ManiAgent，一个无需训练的端到端智能体框架，用于通用机器人操作任务，直接从任务描述和环境输入生成可执行的动作序列
旨在解决视觉语言动作（VLA）模型的两大关键局限：严重依赖大规模高质量演示数据、复杂推理和长程任务规划能力不足
在 SimplerEnv 基准上达到 86.8% 成功率，在真实世界抓取放置任务中达到 95.8% 成功率，并可作为自动化数据收集工具

Card 01 研究单位

研究单位

北京工业大学：Yi Yang、Xudong Liu（通讯作者）
南京大学：Kefan Gu
中国科学技术大学：Yuqing Wen、Hebei Li
Dexmal：Yucheng Zhao（项目负责人）、Tiancai Wang

Card 02 论文概述

论文概述

提出 ManiAgent，一个无需训练的端到端智能体框架，用于通用机器人操作任务，直接从任务描述和环境输入生成可执行的动作序列
旨在解决视觉语言动作（VLA）模型的两大关键局限：严重依赖大规模高质量演示数据、复杂推理和长程任务规划能力不足
在 SimplerEnv 基准上达到 86.8% 成功率，在真实世界抓取放置任务中达到 95.8% 成功率，并可作为自动化数据收集工具

Card 03 核心贡献

核心贡献

提出首个端到端智能体框架 ManiAgent，直接为通用机器人操作任务生成可执行动作序列
设计了 感知-推理-控制 管道，通过协调三个专门智能体整合空间感知、任务推理和动作规划
进行了广泛的模拟和真实世界实验验证，性能显著优于现有 VLA 方法（如 CogACT、Pi-0）和基于约束的方法（如 ReKep）
高成功率使其可作为全自动数据收集工具，为 VLA 训练提供高质量数据支持，显著降低人力成本

Card 04 方法描述

方法描述

感知智能体：利用 VLM（如 GPT-5）处理场景图像和任务描述，生成文本场景描述；结合 Florence-v2 进行开放词汇目标检测，计算 3D 空间坐标
推理智能体：接收场景描述和任务指令，查询 LLM 进行状态评估和子任务分解，逐步适应动态场景并存储历史子任务作为记忆防止循环
控制智能体：将子任务与目标对象信息整合，通过 LLM 生成动作序列；采用缓存机制存储参数化动作序列以加速任务完成
抓取姿态生成使用 AnyGrasp，在检测到多个相同对象时使用 VLM 进行筛选

Card 05 数据集与资源

数据集与资源

模拟环境：SimplerEnv 平台的 BridgeTable-v1 和 BridgeTable-v2
真实世界平台： WidowX-250s 机械臂 + 2 个 Realsense D435 相机
使用的 VLM：GPT-5、Claude-4-sonnet、Grok-4（商业模型）；Qwen-3-235b（开源模型）
目标检测：Florence-v2
抓取感知：AnyGrasp
数据收集：551 条轨迹，450 条有效（81.51% 成功率），耗时 19.5 小时

Card 06 评估与结果

评估与结果

模拟环境：ManiAgent (GPT-5) 平均成功率 86.8%，远超 CogACT 的 51.3% 和 Pi-0 的 55.7%
真实世界实验：使用 Claude-4-sonnet 或 Grok-4 时达到 95.8% 平均成功率
与 ReKep 对比：ManiAgent 在相同 VLM 下成功率提升 37.5%-75%
自动化数据收集：使用 ManiAgent 收集的数据训练的 CogACT 模型可正常执行动作，验证了数据有效性