提出 TWIST2，一个可扩展、便携、整体式的人形机器人数据收集系统，实现无需动捕设备的全身体遥操作

论文详情

TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System

2025-11-04 · 原文 · 翻译 · 2511.02832

提出 TWIST2，一个可扩展、便携、整体式的人形机器人数据收集系统，实现无需动捕设备的全身体遥操作解决现有人形遥操作系统要么解耦控制、要么依赖昂贵动捕设备的问题，首次实现便携性与全身体控制的统一基于收集的数据，构建分层视觉运动策略框架，实现基于自我中心视觉的自主全身体控制

5 分钟读完 6 张阅读卡 Amazon FAR (Frontier AI & Robotics)

一眼看懂封面预览

提出 TWIST2，一个可扩展、便携、整体式的人形机器人数据收集系统，实现无需动捕设备的全身体遥操作

提出 TWIST2，一个可扩展、便携、整体式的人形机器人数据收集系统，实现无需动捕设备的全身体遥操作
解决现有人形遥操作系统要么解耦控制、要么依赖昂贵动捕设备的问题，首次实现便携性与全身体控制的统一
基于收集的数据，构建分层视觉运动策略框架，实现基于自我中心视觉的自主全身体控制

Card 01 研究单位

研究单位

Amazon FAR (Frontier AI & Robotics)
Stanford University
USC (University of Southern California)
UC Berkeley
CMU (Carnegie Mellon University)

Card 02 论文概述

论文概述

提出 TWIST2，一个可扩展、便携、整体式的人形机器人数据收集系统，实现无需动捕设备的全身体遥操作
解决现有人形遥操作系统要么解耦控制、要么依赖昂贵动捕设备的问题，首次实现便携性与全身体控制的统一
基于收集的数据，构建分层视觉运动策略框架，实现基于自我中心视觉的自主全身体控制

Card 03 核心贡献

核心贡献

首个结合全身体控制与便携性的人形遥操作系统，支持自我中心主动视觉、单操作员、无需校准
设计低成本的 TWIST2 Neck（约$250），为 Unitree G1 提供 2-DoF 颈部自由度，实现自我中心视觉
提出分层全身体视觉运动策略学习框架，首次实现基于视觉的人形机器人全身体自主控制
展示长时程遥操作技能（毛巾折叠、穿门运输物体）和自主技能（全身体灵巧拾取放置、Kick-T 踢球任务）
系统、数据和模型完全开源，确保可复现性

Card 04 方法描述

方法描述

硬件系统：基于 PICO4U VR 设备获取实时全身体人体运动，结合自定义 2-DoF 机器人颈部实现自我中心视觉
运动重定向：采用改进的 GMR 方法，将人体姿态映射到人形机器人关节位置，分离上下身优化策略
底层控制：训练通用运动跟踪控制器 π_low，使用 PPO 在 20k 动作片段上训练，输出 PD 目标位置
高层策略：采用 Diffusion Policy 作为视觉运动策略，基于 R3M 预训练的 ResNet-18 视觉编码器，预测 64 步动作块
数据收集：单操作员通过 VR 手柄控制器完成开始/暂停/终止全流程，支持立体视觉深度感知

Card 05 数据集与资源

数据集与资源

机器人平台：Unitree G1（29 DoF + 两个 7-DoF Dex31 灵巧手 + TWIST2 Neck）
运动数据源：AMASS、OMOMO、内部动捕数据，以及 73 个 PICO 采集的日常运动
数据收集效率：20 分钟内收集约 100 次成功双手操作演示或 50 次移动操作演示，成功率近 100%
训练数据：WB-Dex 任务 170 个人类演示，Kick-T 任务 50 个演示
推理硬件：NVIDIA RTX 4090，ONNX 格式实现 20Hz 推理

Card 06 评估与结果

评估与结果

长时程遥操作：实现毛巾折叠（连续折叠 3 条毛巾）和穿门运输篮子等复杂任务，展示全身体协调与主动视觉的重要性
数据收集对比实验：完整 TWIST2 系统平均 67.8 秒完成 10 次演示，显著优于无立体视觉（98.3 秒）、无颈部（112.3 秒）等消融配置
自主策略评估：WB-Dex 任务中策略可靠到达杯子位置，但轻量杯子的精确抓取仍具挑战；Kick-T 任务 7 次试验中 6 次成功将 T 形盒子踢入目标区域
关键发现：自我中心立体视觉对长时程移动和灵巧遥操作至关重要，颈部自由度显著扩展感知范围