AgentWorld: An Interactive Simulation Platform for Scene Construction and Mobile Robotic Manipulation

论文详情

AgentWorld: An Interactive Simulation Platform for Scene Construction and Mobile Robotic Manipulation

2025-08-11 · 原文 · 翻译 · 2508.07770

提出 AgentWorld，一个用于家庭移动操作能力开发的交互式仿真平台，整合程序化场景构建与移动遥操作系统解决现有仿真平台在场景生成与移动机器人数据收集之间缺乏统一框架的问题，弥合仿真训练与真实部署之间的差距

5 分钟读完 6 张阅读卡 Tencent Robotics X（腾讯机器人实验室）

一眼看懂封面预览

提出 AgentWorld，一个用于家庭移动操作能力开发的交互式仿真平台，整合程序化场景构建与移动遥操作系统

提出 AgentWorld，一个用于家庭移动操作能力开发的交互式仿真平台，整合程序化场景构建与移动遥操作系统
解决现有仿真平台在场景生成与移动机器人数据收集之间缺乏统一框架的问题，弥合仿真训练与真实部署之间的差距
程序化场景构建框架，支持多样化布局生成和语义化物体放置，配备超过 9000 个具有真实视觉和物理属性的 3D 资产

Card 01 研究单位

研究单位

Tencent Robotics X（腾讯机器人实验室）
Shanghai Jiao Tong University（上海交通大学）

Card 02 论文概述

论文概述

提出 AgentWorld，一个用于家庭移动操作能力开发的交互式仿真平台，整合程序化场景构建与移动遥操作系统
解决现有仿真平台在场景生成与移动机器人数据收集之间缺乏统一框架的问题，弥合仿真训练与真实部署之间的差距

Card 03 核心贡献

核心贡献

程序化场景构建框架，支持多样化布局生成和语义化物体放置，配备超过 9000 个具有真实视觉和物理属性的 3D 资产
移动遥操作系统，支持轮式底盘和类人机器人运动策略，实现双臂、夹爪和灵巧手的精确控制
AgentWorld Dataset，包含 150 个家庭场景、1000+ 条机器人操作轨迹，覆盖从基础动作到多阶段复杂任务
通过 BC、ACT、Diffusion Policy 和 π₀ 等模仿学习算法验证数据集有效性，并实现 Sim-to-Real 迁移
集成 NVIDIA Omniverse Isaac Sim 和 Unreal Engine，兼顾物理仿真精度与真实渲染效果

Card 04 方法描述

方法描述

四阶段程序化场景生成：布局生成（房间结构）、语义资产选择与放置、视觉材质配置（PBR 材质）、交互式物理仿真
双模态遥操作系统：键盘控制的移动底盘导航（轮式/类人双足），VR 头显驱动的手臂与手部控制，基于 Pinocchio 的闭环逆运动学求解
类人机器人运动策略采用 IsaacLab 强化学习方法训练，支持地形自适应行走
遥操作数据重定向：夹爪通过拇指-食指距离归一化控制，灵巧手采用 dex-retargeting 方法

Card 05 数据集与资源

数据集与资源

数据集：AgentWorld Dataset，1150 条轨迹（持续扩展中），涵盖客厅、卧室、厨房三类场景
机器人平台：Unitree G1、Unitree H1、Franka Emika Panda（轮式底盘）、DOBOT X-Trainer（固定平台）
末端执行器：Robotiq 2F-85 夹爪、TRX-Hand5 灵巧手（18 自由度）
训练资源：NVIDIA L20 GPU，行为克隆训练 6 小时，ACT/Diffusion Policy 训练 12 小时，π₀ 训练 18 小时

Card 06 评估与结果

评估与结果

评估基准：基础任务（Pick & Place、Open & Close、Push & Pull）与多阶段任务（整理书籍、加热食物、铺床等）
主要指标：任务成功率
关键结果：

- ACT 在基础任务上表现最稳定（成功率 62-84%），得益于动作分块机制

- π₀ 在多阶段任务上显著优于其他方法（18-30% vs. 4-16%），受益于预训练表示对长程任务结构的捕捉

- Sim-to-Real 迁移：仿真数据预训练 + 9 条真实世界轨迹微调，在真实机器人上达到 29.3% 成功率