一眼看懂
封面预览
提出 EmbodiedCoder,一个无需训练的开放世界移动机器人操作框架,利用编码模型直接生成可执行的机器人轨迹
- 提出 EmbodiedCoder,一个无需训练的开放世界移动机器人操作框架,利用编码模型直接生成可执行的机器人轨迹
- 解决现有方法依赖大规模标注数据集、泛化能力有限、预定义技能库表达力不足等问题
- 通过将高级指令转化为几何参数化和轨迹合成的程序化表示,连接感知与操作,实现对新颖物体和环境的零样本泛化
Card 01
研究单位
研究单位
- 中国科学院大学 (University of Chinese Academy of Sciences, UCAS)
- 中国科学院自动化研究所 (Institute of Automation, Chinese Academy of Sciences, CASIA)
- 模式识别国家重点实验室 (New Laboratory of Pattern Recognition, NLPR)
- 多模态人工智能系统国家重点实验室 (State Key Key Laboratory of Multimodal Artificial Intelligence Systems, MAIS)
- 北京航空航天大学 (Beihang University)
- 香港中文大学 (Chinese University of Hong Kong)
Card 02
论文概述
论文概述
- 提出 EmbodiedCoder,一个无需训练的开放世界移动机器人操作框架,利用编码模型直接生成可执行的机器人轨迹
- 解决现有方法依赖大规模标注数据集、泛化能力有限、预定义技能库表达力不足等问题
- 通过将高级指令转化为几何参数化和轨迹合成的程序化表示,连接感知与操作,实现对新颖物体和环境的零样本泛化
Card 03
核心贡献
核心贡献
- 提出将编码模型与具身智能体集成的框架,实现真实环境中的复杂长期操作任务
- 提出将物体参数化为功能几何抽象的新方法,将预训练知识转化为可执行轨迹
- 在真实移动机器人上验证 EmbodiedCoder,展示其在多样化任务中的有效性、改进的泛化能力和无需训练部署的能力
Card 04
方法描述
方法描述
- 场景理解与任务分解模块:使用 VGGT 进行点云重建,Qwen-2.5-VL 进行语义接地和指令分解,SAM 生成2D语义掩膜
- EmbodiedCoder 模块:
- 代码驱动的几何参数化:将点云拟合成几何基元(如门拟合为带铰链轴的立方体)
-代码驱动的轨迹合成:考虑物理约束、环境约束和机器人运动学限制,生成参数化曲线轨迹
- 代码缓存:复用已生成的代码以提高效率
- 运动执行模块:从合成的轨迹中采样路点,执行导航和操作任务
Card 05
数据集与资源
数据集与资源
- 硬件平台:AgileX Cobot S Kit + RealSense D455 RGB-D 相机
- 模型配置:
- VLM:Qwen-2.5-VL (7B)
- 编码模型:Claude-Sonnet-4
- 点云重建:VGGT
- 分割模型:SAM
Card 06
评估与结果
评估与结果
- 长期任务评估:在5个多步骤任务上测试,cached 条件下成功率达 35%-90%,显著优于 DovSG(无法处理门/抽屉操作)
- 简单任务评估:与 VLA 模型比较,平均成功率达 89.2%,优于 RT-2 (84%)、OpenVLA (73.3%)
- 代码生成方法比较:在 Pour Tea、Recycle Can、Stow Book 任务上分别达到 80%、100%、80%,优于 ReKep 和 VoxPoser
- 消融实验:
- 物体形状影响:在各种物体(瓶子、苹果、橙子等)上的抓取成功率均高于 AnyGrasp
- 语义地图效果:使用2D语义地图后,子任务分解成功率从 64%-72% 提升至 80%-88%
- 编码模型能力:Claude-Sonnet-4 表现最佳