EmbodiedCoder: Parameterized Embodied Mobile Manipulation via Modern Coding Model

一眼看懂封面预览

提出 EmbodiedCoder，一个无需训练的开放世界移动机器人操作框架，利用编码模型直接生成可执行的机器人轨迹

Card 01 研究单位

研究单位

中国科学院大学 (University of Chinese Academy of Sciences, UCAS)
中国科学院自动化研究所 (Institute of Automation, Chinese Academy of Sciences, CASIA)
模式识别国家重点实验室 (New Laboratory of Pattern Recognition, NLPR)
多模态人工智能系统国家重点实验室 (State Key Key Laboratory of Multimodal Artificial Intelligence Systems, MAIS)
北京航空航天大学 (Beihang University)
香港中文大学 (Chinese University of Hong Kong)

Card 02 论文概述

Card 03 核心贡献

Card 04 方法描述

- 代码驱动的几何参数化：将点云拟合成几何基元（如门拟合为带铰链轴的立方体）

-代码驱动的轨迹合成：考虑物理约束、环境约束和机器人运动学限制，生成参数化曲线轨迹

- 代码缓存：复用已生成的代码以提高效率

Card 05 数据集与资源

- VLM：Qwen-2.5-VL (7B)

- 编码模型：Claude-Sonnet-4

- 点云重建：VGGT

- 分割模型：SAM

Card 06 评估与结果

长期任务评估：在5个多步骤任务上测试，cached 条件下成功率达 35%-90%，显著优于 DovSG（无法处理门/抽屉操作）
简单任务评估：与 VLA 模型比较，平均成功率达 89.2%，优于 RT-2 (84%)、OpenVLA (73.3%)
代码生成方法比较：在 Pour Tea、Recycle Can、Stow Book 任务上分别达到 80%、100%、80%，优于 ReKep 和 VoxPoser
消融实验：

- 物体形状影响：在各种物体（瓶子、苹果、橙子等）上的抓取成功率均高于 AnyGrasp

- 语义地图效果：使用2D语义地图后，子任务分解成功率从 64%-72% 提升至 80%-88%

- 编码模型能力：Claude-Sonnet-4 表现最佳