返回列表 VLA / Vision-Language-Action 每日论文卡
TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System
提出 TWIST2,一个可扩展、便携、整体式的人形机器人数据收集系统,实现无需动捕设备的全身体遥操作

论文详情

TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System

2025-11-04 · 原文 · 翻译 · 2511.02832

提出 TWIST2,一个可扩展、便携、整体式的人形机器人数据收集系统,实现无需动捕设备的全身体遥操作 解决现有人形遥操作系统要么解耦控制、要么依赖昂贵动捕设备的问题,首次实现便携性与全身体控制的统一 基于收集的数据,构建分层视觉运动策略框架,实现基于自我中心视觉的自主全身体控制

5 分钟读完 6 张阅读卡 Amazon FAR (Frontier AI & Robotics)
一眼看懂 封面预览

提出 TWIST2,一个可扩展、便携、整体式的人形机器人数据收集系统,实现无需动捕设备的全身体遥操作

  • 提出 TWIST2,一个可扩展、便携、整体式的人形机器人数据收集系统,实现无需动捕设备的全身体遥操作
  • 解决现有人形遥操作系统要么解耦控制、要么依赖昂贵动捕设备的问题,首次实现便携性与全身体控制的统一
  • 基于收集的数据,构建分层视觉运动策略框架,实现基于自我中心视觉的自主全身体控制
Card 01 研究单位

研究单位

  • Amazon FAR (Frontier AI & Robotics)
  • Stanford University
  • USC (University of Southern California)
  • UC Berkeley
  • CMU (Carnegie Mellon University)
Card 02 论文概述

论文概述

  • 提出 TWIST2,一个可扩展、便携、整体式的人形机器人数据收集系统,实现无需动捕设备的全身体遥操作
  • 解决现有人形遥操作系统要么解耦控制、要么依赖昂贵动捕设备的问题,首次实现便携性与全身体控制的统一
  • 基于收集的数据,构建分层视觉运动策略框架,实现基于自我中心视觉的自主全身体控制
Card 03 核心贡献

核心贡献

  • 首个结合全身体控制便携性的人形遥操作系统,支持自我中心主动视觉、单操作员、无需校准
  • 设计低成本的 TWIST2 Neck(约$250),为 Unitree G1 提供 2-DoF 颈部自由度,实现自我中心视觉
  • 提出分层全身体视觉运动策略学习框架,首次实现基于视觉的人形机器人全身体自主控制
  • 展示长时程遥操作技能(毛巾折叠、穿门运输物体)和自主技能(全身体灵巧拾取放置、Kick-T 踢球任务)
  • 系统、数据和模型完全开源,确保可复现性
Card 04 方法描述

方法描述

  • 硬件系统:基于 PICO4U VR 设备获取实时全身体人体运动,结合自定义 2-DoF 机器人颈部实现自我中心视觉
  • 运动重定向:采用改进的 GMR 方法,将人体姿态映射到人形机器人关节位置,分离上下身优化策略
  • 底层控制:训练通用运动跟踪控制器 π_low,使用 PPO 在 20k 动作片段上训练,输出 PD 目标位置
  • 高层策略:采用 Diffusion Policy 作为视觉运动策略,基于 R3M 预训练的 ResNet-18 视觉编码器,预测 64 步动作块
  • 数据收集:单操作员通过 VR 手柄控制器完成开始/暂停/终止全流程,支持立体视觉深度感知
Card 05 数据集与资源

数据集与资源

  • 机器人平台Unitree G1(29 DoF + 两个 7-DoF Dex31 灵巧手 + TWIST2 Neck)
  • 运动数据源AMASSOMOMO、内部动捕数据,以及 73 个 PICO 采集的日常运动
  • 数据收集效率:20 分钟内收集约 100 次成功双手操作演示或 50 次移动操作演示,成功率近 100%
  • 训练数据:WB-Dex 任务 170 个人类演示,Kick-T 任务 50 个演示
  • 推理硬件:NVIDIA RTX 4090,ONNX 格式实现 20Hz 推理
Card 06 评估与结果

评估与结果

  • 长时程遥操作:实现毛巾折叠(连续折叠 3 条毛巾)和穿门运输篮子等复杂任务,展示全身体协调与主动视觉的重要性
  • 数据收集对比实验:完整 TWIST2 系统平均 67.8 秒完成 10 次演示,显著优于无立体视觉(98.3 秒)、无颈部(112.3 秒)等消融配置
  • 自主策略评估:WB-Dex 任务中策略可靠到达杯子位置,但轻量杯子的精确抓取仍具挑战;Kick-T 任务 7 次试验中 6 次成功将 T 形盒子踢入目标区域
  • 关键发现:自我中心立体视觉对长时程移动和灵巧遥操作至关重要,颈部自由度显著扩展感知范围