返回列表 VLA / Vision-Language-Action 每日论文卡
EmbodiedCoder: Parameterized Embodied Mobile Manipulation via Modern Coding Model
提出 EmbodiedCoder,一个无需训练的开放世界移动机器人操作框架,利用编码模型直接生成可执行的机器人轨迹

论文详情

EmbodiedCoder: Parameterized Embodied Mobile Manipulation via Modern Coding Model

2025-10-07 · 原文 · 翻译 · 2510.06207

提出 EmbodiedCoder,一个无需训练的开放世界移动机器人操作框架,利用编码模型直接生成可执行的机器人轨迹 解决现有方法依赖大规模标注数据集、泛化能力有限、预定义技能库表达力不足等问题 通过将高级指令转化为几何参数化和轨迹合成的程序化表示,连接感知与操作,实现对新颖物体和环境的零样本泛化

5 分钟读完 6 张阅读卡 中国科学院大学 (University of Chinese Academy of Sciences…
一眼看懂 封面预览

提出 EmbodiedCoder,一个无需训练的开放世界移动机器人操作框架,利用编码模型直接生成可执行的机器人轨迹

  • 提出 EmbodiedCoder,一个无需训练的开放世界移动机器人操作框架,利用编码模型直接生成可执行的机器人轨迹
  • 解决现有方法依赖大规模标注数据集、泛化能力有限、预定义技能库表达力不足等问题
  • 通过将高级指令转化为几何参数化和轨迹合成的程序化表示,连接感知与操作,实现对新颖物体和环境的零样本泛化
Card 01 研究单位

研究单位

  • 中国科学院大学 (University of Chinese Academy of Sciences, UCAS)
  • 中国科学院自动化研究所 (Institute of Automation, Chinese Academy of Sciences, CASIA)
  • 模式识别国家重点实验室 (New Laboratory of Pattern Recognition, NLPR)
  • 多模态人工智能系统国家重点实验室 (State Key Key Laboratory of Multimodal Artificial Intelligence Systems, MAIS)
  • 北京航空航天大学 (Beihang University)
  • 香港中文大学 (Chinese University of Hong Kong)
Card 02 论文概述

论文概述

  • 提出 EmbodiedCoder,一个无需训练的开放世界移动机器人操作框架,利用编码模型直接生成可执行的机器人轨迹
  • 解决现有方法依赖大规模标注数据集、泛化能力有限、预定义技能库表达力不足等问题
  • 通过将高级指令转化为几何参数化轨迹合成的程序化表示,连接感知与操作,实现对新颖物体和环境的零样本泛化
Card 03 核心贡献

核心贡献

  • 提出将编码模型与具身智能体集成的框架,实现真实环境中的复杂长期操作任务
  • 提出将物体参数化为功能几何抽象的新方法,将预训练知识转化为可执行轨迹
  • 在真实移动机器人上验证 EmbodiedCoder,展示其在多样化任务中的有效性、改进的泛化能力和无需训练部署的能力
Card 04 方法描述

方法描述

  • 场景理解与任务分解模块:使用 VGGT 进行点云重建,Qwen-2.5-VL 进行语义接地和指令分解,SAM 生成2D语义掩膜
  • EmbodiedCoder 模块

- 代码驱动的几何参数化:将点云拟合成几何基元(如门拟合为带铰链轴的立方体)

-代码驱动的轨迹合成:考虑物理约束、环境约束和机器人运动学限制,生成参数化曲线轨迹

- 代码缓存:复用已生成的代码以提高效率

  • 运动执行模块:从合成的轨迹中采样路点,执行导航和操作任务
Card 05 数据集与资源

数据集与资源

  • 硬件平台:AgileX Cobot S Kit + RealSense D455 RGB-D 相机
  • 模型配置

- VLM:Qwen-2.5-VL (7B)

- 编码模型:Claude-Sonnet-4

- 点云重建:VGGT

- 分割模型:SAM

Card 06 评估与结果

评估与结果

  • 长期任务评估:在5个多步骤任务上测试,cached 条件下成功率达 35%-90%,显著优于 DovSG(无法处理门/抽屉操作)
  • 简单任务评估:与 VLA 模型比较,平均成功率达 89.2%,优于 RT-2 (84%)、OpenVLA (73.3%)
  • 代码生成方法比较:在 Pour Tea、Recycle Can、Stow Book 任务上分别达到 80%、100%、80%,优于 ReKep 和 VoxPoser
  • 消融实验

- 物体形状影响:在各种物体(瓶子、苹果、橙子等)上的抓取成功率均高于 AnyGrasp

- 语义地图效果:使用2D语义地图后,子任务分解成功率从 64%-72% 提升至 80%-88%

- 编码模型能力:Claude-Sonnet-4 表现最佳