返回列表 VLA / Vision-Language-Action 每日论文卡
Demonstration-Free Robotic Control via LLM Agents
探索将通用大语言模型(LLM)Agent 框架直接应用于机器人操作控制,无需任务特定的演示数据或微调

论文详情

Demonstration-Free Robotic Control via LLM Agents

2026-01-28 · 原文 · 翻译 · 2601.20334

探索将通用大语言模型(LLM)Agent 框架直接应用于机器人操作控制,无需任务特定的演示数据或微调 提出 FAEA(Frontier Agent as Embodied Agent) 方法,利用 Claude Agent SDK 的迭代推理能力,使智能体通过试错自主发现操作策略 解决传统 VLA(Vision-Language-Action)模型依赖大量演示数据、泛化能力差的问题

5 分钟读完 6 张阅读卡 论文未明确列出作者所属机构,作者为 Brian Y. Tsui, Alan Y. Fang, Tiff…
一眼看懂 封面预览

探索将通用大语言模型(LLM)Agent 框架直接应用于机器人操作控制,无需任务特定的演示数据或微调

  • 探索将通用大语言模型(LLM)Agent 框架直接应用于机器人操作控制,无需任务特定的演示数据或微调
  • 提出 FAEA(Frontier Agent as Embodied Agent) 方法,利用 Claude Agent SDK 的迭代推理能…
  • 解决传统 VLA(Vision-Language-Action)模型依赖大量演示数据、泛化能力差的问题
Card 01 研究单位

研究单位

  • 论文未明确列出作者所属机构,作者为 Brian Y. Tsui, Alan Y. Fang, Tiffany J. Hwu
Card 02 论文概述

论文概述

  • 探索将通用大语言模型(LLM)Agent 框架直接应用于机器人操作控制,无需任务特定的演示数据或微调
  • 提出 FAEA(Frontier Agent as Embodied Agent) 方法,利用 Claude Agent SDK 的迭代推理能力,使智能体通过试错自主发现操作策略
  • 解决传统 VLA(Vision-Language-Action)模型依赖大量演示数据、泛化能力差的问题
Card 03 核心贡献

核心贡献

  • 首次系统评估未经修改的前沿 LLM Agent 框架(Claude Agent SDK)在机器人操作任务上的原生能力
  • LIBEROManiSkill3MetaWorld 三个基准上实现 84.9%、85.7%、96% 的成功率,无需任何演示数据或微调
  • 证明单次人工反馈(Coaching)可进一步提升性能至 88.2%(LIBERO)
  • 揭示通用 Agent 的迭代调试能力可迁移至物理操作,为机器人领域提供新的控制范式
  • 提出 FAEA 可作为自动演示生成工具,为 VLA 训练提供数据增强
Card 04 方法描述

方法描述

  • 基于 ReAct(Reasoning + Acting) 循环架构,智能体通过"推理-行动-观察"迭代生成 Python 控制脚本
  • 利用 Claude Agent SDK 的原生能力:上下文管理、错误处理、执行追踪,无需机器人特定的 Agent 基础设施
  • 智能体通过工具调用(Bash、Write、Read、WebFetch)自主探索仿真 API,生成动作序列
  • 采用 绝对末端执行器位置控制,将高层规划委托给 LLM,低层运动由传统控制器处理
  • 支持可选的"人类教练"提示优化,添加高级操作启发式策略
Card 05 数据集与资源

数据集与资源

  • 数据集LIBERO(120 任务,Franka Panda)、ManiSkill3(14 任务,域随机化)、MetaWorld(50 任务,Sawyer 机械臂)
  • 模型Claude Opus 4.5(claude-opus-4-5-20251101),通过 API 访问
  • 观测模态:特权环境状态(物体位置、夹爪状态),非原始 RGB 图像
  • 计算成本:每任务 $0.51–$5.60,平均 2–26 次尝试,耗时 2–25 分钟
Card 06 评估与结果

评估与结果

  • LIBERO:基线 84.9%,+Coaching 88.2%,接近 SmolVLA(88.75%)和 π₀ 预训练模型(86.0%),显著优于 OpenVLA(76.5%)和 Diffusion Policy(72.4%)
  • ManiSkill3:85.7% 成功率,在粗粒度操作任务(PickCube、PushCube、StackCube)上达到 100%,优于 100 演示训练的 Diffusion Policy 和 ACT;但精细操作(PegInsertion)失败(0%)
  • MetaWorld:96% 基线成功率,+Coaching 达 100%,大幅超越 SmolVLA(68.2%)和 π₀(50.5%)
  • 关键发现:任务难度与计算成本强相关(Hard 任务成本 11× Easy 任务);无关 Coaching 会降低性能(ManiSkill 从 85.7% 降至 81.4%)