返回列表 VLA / Vision-Language-Action 每日论文卡
SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control
论文提出 SONIC,一个通过规模化运动跟踪实现自然人形机器人全身控制的框架。

论文详情

SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control

2025-11-11 · 原文 · 翻译 · 2511.07820

论文提出 SONIC,一个通过规模化运动跟踪实现自然人形机器人全身控制的框架。 核心目标是解决人形机器人控制领域尚未像其他AI领域那样实现规模化增益的问题,即构建一个通用、强健的控制器。 论文将运动跟踪确立为可扩展的基础任务,利用大规模动作捕捉数据提供密集监督,无需手工设计奖励函数。

4 分钟读完 6 张阅读卡 所有作者均来自 NVIDIA。
一眼看懂 封面预览

论文提出 SONIC,一个通过规模化运动跟踪实现自然人形机器人全身控制的框架。

  • 论文提出 SONIC,一个通过规模化运动跟踪实现自然人形机器人全身控制的框架。
  • 核心目标是解决人形机器人控制领域尚未像其他AI领域那样实现规模化增益的问题,即构建一个通用、强健的控制器。
  • 论文将运动跟踪确立为可扩展的基础任务,利用大规模动作捕捉数据提供密集监督,无需手工设计奖励函数。
Card 01 研究单位

研究单位

  • 所有作者均来自 NVIDIA
Card 02 论文概述

论文概述

  • 论文提出 SONIC,一个通过规模化运动跟踪实现自然人形机器人全身控制的框架。
  • 核心目标是解决人形机器人控制领域尚未像其他AI领域那样实现规模化增益的问题,即构建一个通用、强健的控制器。
  • 论文将运动跟踪确立为可扩展的基础任务,利用大规模动作捕捉数据提供密集监督,无需手工设计奖励函数。
Card 03 核心贡献

核心贡献

  • 识别并验证了运动跟踪作为人形机器人控制的可扩展基础任务,展示了其在计算量和数据多样性方面的规模化优势,将控制策略扩展到 4200万参数,数据量超 1亿帧,计算量达 9000 GPU小时
  • 引入了一个用于交互控制的实时运动学生成规划器,以及一个统一的token空间,支持遥操作、人类视频、文本、音乐和视觉-语言-动作(VLA)模型等多种输入模态,通过单一策略实现多模态控制。
  • 提供了全面的实证评估,证明了人形机器人控制的规模化趋势、对未见运动的零样本泛化能力、在真实人形机器人上稳健的仿真到现实迁移,以及与基础模型的成功集成。
Card 04 方法描述

方法描述

  • 将运动跟踪形式化为马尔可夫决策过程,采用近端策略优化算法进行训练,奖励函数结合了跟踪误差惩罚和正则化项。
  • 设计了包含专用编码器(机器人、人类、混合运动)、向量量化器和共享解码器的统一控制策略架构,将异构运动命令映射到共享的“通用token”潜在空间。
  • 引入了生成式运动学生成规划器,采用基于Transformer的掩码token预测方法在潜在空间中进行自回归运动插值,并结合一个关键阻尼弹簧模型从用户命令生成目标轨迹。
  • 在训练中应用了包括物理参数、外部推力和运动扰动在内的系统域随机化,以增强策略的鲁棒性和泛化能力。
Card 05 数据集与资源

数据集与资源

  • 使用了一个内部大规模人类动作捕捉数据集,包含来自 170名受试者、超过 1亿帧700小时)的高质量运动数据,涵盖移动、日常活动、手势和战斗动作等。
  • 模型规模从 120万参数 扩展至 4200万参数
  • 128个GPU 上进行分布式训练,总计 9000 GPU小时(持续约3天)。
Card 06 评估与结果

评估与结果

  • 主要在 Isaac LabMuJoCo 仿真环境中评估,并在 Unitree G1 人形机器人上进行真实世界部署。
  • 评估指标包括成功率、平均关节位置误差(MPJPE)、加速度误差(E_acc)和速度误差(E_vel)。
  • 实验表明,随着数据集规模、模型大小和计算量的增加,跟踪性能持续稳定提升。
  • 在包含9小时未见运动轨迹的测试集上,SONIC在真实世界达到了 100%的成功率,并且其性能在所有指标上均显著优于 Any2TrackBeyondMimicGMT 等现有基线方法。