探索将通用大语言模型（LLM）Agent 框架直接应用于机器人操作控制，无需任务特定的演示数据或微调

论文详情

Demonstration-Free Robotic Control via LLM Agents

2026-01-28 · 原文 · 翻译 · 2601.20334

探索将通用大语言模型（LLM）Agent 框架直接应用于机器人操作控制，无需任务特定的演示数据或微调提出 FAEA（Frontier Agent as Embodied Agent）方法，利用 Claude Agent SDK 的迭代推理能力，使智能体通过试错自主发现操作策略解决传统 VLA（Vision-Language-Action）模型依赖大量演示数据、泛化能力差的问题

5 分钟读完 6 张阅读卡论文未明确列出作者所属机构，作者为 Brian Y. Tsui, Alan Y. Fang, Tiff…

一眼看懂封面预览

探索将通用大语言模型（LLM）Agent 框架直接应用于机器人操作控制，无需任务特定的演示数据或微调

探索将通用大语言模型（LLM）Agent 框架直接应用于机器人操作控制，无需任务特定的演示数据或微调
提出 FAEA（Frontier Agent as Embodied Agent）方法，利用 Claude Agent SDK 的迭代推理能…
解决传统 VLA（Vision-Language-Action）模型依赖大量演示数据、泛化能力差的问题

Card 01 研究单位

研究单位

论文未明确列出作者所属机构，作者为 Brian Y. Tsui, Alan Y. Fang, Tiffany J. Hwu

Card 02 论文概述

论文概述

探索将通用大语言模型（LLM）Agent 框架直接应用于机器人操作控制，无需任务特定的演示数据或微调
提出 FAEA（Frontier Agent as Embodied Agent） 方法，利用 Claude Agent SDK 的迭代推理能力，使智能体通过试错自主发现操作策略
解决传统 VLA（Vision-Language-Action）模型依赖大量演示数据、泛化能力差的问题

Card 03 核心贡献

核心贡献

首次系统评估未经修改的前沿 LLM Agent 框架（Claude Agent SDK）在机器人操作任务上的原生能力
在 LIBERO、ManiSkill3、MetaWorld 三个基准上实现 84.9%、85.7%、96% 的成功率，无需任何演示数据或微调
证明单次人工反馈（Coaching）可进一步提升性能至 88.2%（LIBERO）
揭示通用 Agent 的迭代调试能力可迁移至物理操作，为机器人领域提供新的控制范式
提出 FAEA 可作为自动演示生成工具，为 VLA 训练提供数据增强

Card 04 方法描述

方法描述

基于 ReAct（Reasoning + Acting） 循环架构，智能体通过"推理-行动-观察"迭代生成 Python 控制脚本
利用 Claude Agent SDK 的原生能力：上下文管理、错误处理、执行追踪，无需机器人特定的 Agent 基础设施
智能体通过工具调用（Bash、Write、Read、WebFetch）自主探索仿真 API，生成动作序列
采用 绝对末端执行器位置控制，将高层规划委托给 LLM，低层运动由传统控制器处理
支持可选的"人类教练"提示优化，添加高级操作启发式策略

Card 05 数据集与资源

数据集与资源

数据集：LIBERO（120 任务，Franka Panda）、ManiSkill3（14 任务，域随机化）、MetaWorld（50 任务，Sawyer 机械臂）
模型：Claude Opus 4.5（claude-opus-4-5-20251101），通过 API 访问
观测模态：特权环境状态（物体位置、夹爪状态），非原始 RGB 图像
计算成本：每任务 $0.51–$5.60，平均 2–26 次尝试，耗时 2–25 分钟

Card 06 评估与结果

评估与结果

LIBERO：基线 84.9%，+Coaching 88.2%，接近 SmolVLA（88.75%）和 π₀ 预训练模型（86.0%），显著优于 OpenVLA（76.5%）和 Diffusion Policy（72.4%）
ManiSkill3：85.7% 成功率，在粗粒度操作任务（PickCube、PushCube、StackCube）上达到 100%，优于 100 演示训练的 Diffusion Policy 和 ACT；但精细操作（PegInsertion）失败（0%）
MetaWorld：96% 基线成功率，+Coaching 达 100%，大幅超越 SmolVLA（68.2%）和 π₀（50.5%）
关键发现：任务难度与计算成本强相关（Hard 任务成本 11× Easy 任务）；无关 Coaching 会降低性能（ManiSkill 从 85.7% 降至 81.4%）