返回列表 VLA / Vision-Language-Action 每日论文卡

Agentic Robot: A Brain-Inspired Framework for Vision-Language-Action Models in Embodied Agents

论文详情

Agentic Robot: A Brain-Inspired Framework for Vision-Language-Action Models in Embodied Agents

2025-05-29 · 原文 · 翻译 · 2505.23450

提出了 Agentic Robot,一个受大脑启发的具身智能体框架,旨在解决长周期机器人操作任务中的错误累积和缺乏验证机制的问题。 核心创新是 标准化行动程序,一种协调规划、执行和验证阶段的标准化协议。 该框架通过闭环感知-推理-执行-验证循环,实现了动态自我验证和错误恢复,无需外部监督。

4 分钟读完 6 张阅读卡 吉林大学
一眼看懂 封面预览

提出了 Agentic Robot,一个受大脑启发的具身智能体框架,旨在解决长周期机器人操作任务中的错误累积和缺乏验证机制的问题。

  • 提出了 Agentic Robot,一个受大脑启发的具身智能体框架,旨在解决长周期机器人操作任务中的错误累积和缺乏验证机制的问题。
  • 核心创新是 标准化行动程序,一种协调规划、执行和验证阶段的标准化协议。
  • 该框架通过闭环感知-推理-执行-验证循环,实现了动态自我验证和错误恢复,无需外部监督。
Card 01 研究单位

研究单位

  • 吉林大学
  • 哈佛大学
  • 麻省理工学院
  • 华中科技大学
  • 南方科技大学
  • 里海大学
  • 上海交通大学
Card 02 论文概述

论文概述

  • 提出了 Agentic Robot,一个受大脑启发的具身智能体框架,旨在解决长周期机器人操作任务中的错误累积和缺乏验证机制的问题。
  • 核心创新是 标准化行动程序,一种协调规划、执行和验证阶段的标准化协议。
  • 该框架通过闭环感知-推理-执行-验证循环,实现了动态自我验证和错误恢复,无需外部监督。
Card 03 核心贡献

核心贡献

  • 提出了 Agentic Robot 框架,一个模块化、可解释的具身智能体架构,为开发可靠的长周期操作系统提供了强大平台。
  • 引入了 标准化行动程序,这是一种新颖的协调协议,规范了任务分解、执行和验证之间的结构化交互,增强了系统可靠性。
  • LIBERO 基准上实现了最先进的性能,平均成功率达 79.6%,在挑战性长周期任务上取得了显著提升。
Card 04 方法描述

方法描述

  • 框架包含三个核心组件:基于大型推理模型的 规划器 负责将高级指令分解为子目标;基于视觉-语言-动作模型的 执行器 生成连续控制命令;基于视觉-语言模型的 验证器 进行子目标评估与错误恢复。
  • 关键创新是 标准化行动程序,它受人类组织标准化作业程序启发,为组件交互定义了标准化工作流程,确保任务分解、执行和验证遵循一致程序。
  • 采用一个 原子技能库 来约束子目标生成,确保其与执行器兼容并保持可解释性。
Card 05 数据集与资源

数据集与资源

  • 主要评估数据集为 LIBERO 基准,专注于长周期操作任务。
  • 规划器使用 GPT-4o;执行器采用 OpenVLA (7B参数);验证器采用 Qwen2.5-VL-3B-Instruct,并用 LoRA 在约500个标注数据上进行微调。
  • 论文未明确提及具体的GPU/TPU训练资源。
Card 06 评估与结果

评估与结果

  • LIBERO 仿真基准上进行评估,专注于长周期操作任务。
  • 主要评估指标为任务成功率。
  • Agentic Robot 平均成功率达到 79.6%,超越 SpatialVLA (6.1%) 和 OpenVLA (7.4%)。
  • 在特定长周期任务上提升显著,如 Bowl-Drawer 任务提升 24%Soup-Sauce 任务提升 21%