一眼看懂
封面预览
提出 TWIST2,一个可扩展、便携、整体式的人形机器人数据收集系统,实现无需动捕设备的全身体遥操作
- 提出 TWIST2,一个可扩展、便携、整体式的人形机器人数据收集系统,实现无需动捕设备的全身体遥操作
- 解决现有人形遥操作系统要么解耦控制、要么依赖昂贵动捕设备的问题,首次实现便携性与全身体控制的统一
- 基于收集的数据,构建分层视觉运动策略框架,实现基于自我中心视觉的自主全身体控制
Card 01
研究单位
研究单位
- Amazon FAR (Frontier AI & Robotics)
- Stanford University
- USC (University of Southern California)
- UC Berkeley
- CMU (Carnegie Mellon University)
Card 02
论文概述
论文概述
- 提出 TWIST2,一个可扩展、便携、整体式的人形机器人数据收集系统,实现无需动捕设备的全身体遥操作
- 解决现有人形遥操作系统要么解耦控制、要么依赖昂贵动捕设备的问题,首次实现便携性与全身体控制的统一
- 基于收集的数据,构建分层视觉运动策略框架,实现基于自我中心视觉的自主全身体控制
Card 03
核心贡献
核心贡献
- 首个结合全身体控制与便携性的人形遥操作系统,支持自我中心主动视觉、单操作员、无需校准
- 设计低成本的 TWIST2 Neck(约$250),为 Unitree G1 提供 2-DoF 颈部自由度,实现自我中心视觉
- 提出分层全身体视觉运动策略学习框架,首次实现基于视觉的人形机器人全身体自主控制
- 展示长时程遥操作技能(毛巾折叠、穿门运输物体)和自主技能(全身体灵巧拾取放置、Kick-T 踢球任务)
- 系统、数据和模型完全开源,确保可复现性
Card 04
方法描述
方法描述
- 硬件系统:基于 PICO4U VR 设备获取实时全身体人体运动,结合自定义 2-DoF 机器人颈部实现自我中心视觉
- 运动重定向:采用改进的 GMR 方法,将人体姿态映射到人形机器人关节位置,分离上下身优化策略
- 底层控制:训练通用运动跟踪控制器 π_low,使用 PPO 在 20k 动作片段上训练,输出 PD 目标位置
- 高层策略:采用 Diffusion Policy 作为视觉运动策略,基于 R3M 预训练的 ResNet-18 视觉编码器,预测 64 步动作块
- 数据收集:单操作员通过 VR 手柄控制器完成开始/暂停/终止全流程,支持立体视觉深度感知
Card 05
数据集与资源
数据集与资源
- 机器人平台:Unitree G1(29 DoF + 两个 7-DoF Dex31 灵巧手 + TWIST2 Neck)
- 运动数据源:AMASS、OMOMO、内部动捕数据,以及 73 个 PICO 采集的日常运动
- 数据收集效率:20 分钟内收集约 100 次成功双手操作演示或 50 次移动操作演示,成功率近 100%
- 训练数据:WB-Dex 任务 170 个人类演示,Kick-T 任务 50 个演示
- 推理硬件:NVIDIA RTX 4090,ONNX 格式实现 20Hz 推理
Card 06
评估与结果
评估与结果
- 长时程遥操作:实现毛巾折叠(连续折叠 3 条毛巾)和穿门运输篮子等复杂任务,展示全身体协调与主动视觉的重要性
- 数据收集对比实验:完整 TWIST2 系统平均 67.8 秒完成 10 次演示,显著优于无立体视觉(98.3 秒)、无颈部(112.3 秒)等消融配置
- 自主策略评估:WB-Dex 任务中策略可靠到达杯子位置,但轻量杯子的精确抓取仍具挑战;Kick-T 任务 7 次试验中 6 次成功将 T 形盒子踢入目标区域
- 关键发现:自我中心立体视觉对长时程移动和灵巧遥操作至关重要,颈部自由度显著扩展感知范围