论文提出 SONIC，一个通过规模化运动跟踪实现自然人形机器人全身控制的框架。

论文详情

SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control

2025-11-11 · 原文 · 翻译 · 2511.07820

论文提出 SONIC，一个通过规模化运动跟踪实现自然人形机器人全身控制的框架。核心目标是解决人形机器人控制领域尚未像其他AI领域那样实现规模化增益的问题，即构建一个通用、强健的控制器。论文将运动跟踪确立为可扩展的基础任务，利用大规模动作捕捉数据提供密集监督，无需手工设计奖励函数。

4 分钟读完 6 张阅读卡所有作者均来自 NVIDIA。

一眼看懂封面预览

论文提出 SONIC，一个通过规模化运动跟踪实现自然人形机器人全身控制的框架。

论文提出 SONIC，一个通过规模化运动跟踪实现自然人形机器人全身控制的框架。
核心目标是解决人形机器人控制领域尚未像其他AI领域那样实现规模化增益的问题，即构建一个通用、强健的控制器。
论文将运动跟踪确立为可扩展的基础任务，利用大规模动作捕捉数据提供密集监督，无需手工设计奖励函数。

Card 01 研究单位

研究单位

所有作者均来自 NVIDIA。

Card 02 论文概述

论文概述

论文提出 SONIC，一个通过规模化运动跟踪实现自然人形机器人全身控制的框架。
核心目标是解决人形机器人控制领域尚未像其他AI领域那样实现规模化增益的问题，即构建一个通用、强健的控制器。
论文将运动跟踪确立为可扩展的基础任务，利用大规模动作捕捉数据提供密集监督，无需手工设计奖励函数。

Card 03 核心贡献

核心贡献

识别并验证了运动跟踪作为人形机器人控制的可扩展基础任务，展示了其在计算量和数据多样性方面的规模化优势，将控制策略扩展到 4200万参数，数据量超 1亿帧，计算量达 9000 GPU小时。
引入了一个用于交互控制的实时运动学生成规划器，以及一个统一的token空间，支持遥操作、人类视频、文本、音乐和视觉-语言-动作(VLA)模型等多种输入模态，通过单一策略实现多模态控制。
提供了全面的实证评估，证明了人形机器人控制的规模化趋势、对未见运动的零样本泛化能力、在真实人形机器人上稳健的仿真到现实迁移，以及与基础模型的成功集成。

Card 04 方法描述

方法描述

将运动跟踪形式化为马尔可夫决策过程，采用近端策略优化算法进行训练，奖励函数结合了跟踪误差惩罚和正则化项。
设计了包含专用编码器（机器人、人类、混合运动）、向量量化器和共享解码器的统一控制策略架构，将异构运动命令映射到共享的“通用token”潜在空间。
引入了生成式运动学生成规划器，采用基于Transformer的掩码token预测方法在潜在空间中进行自回归运动插值，并结合一个关键阻尼弹簧模型从用户命令生成目标轨迹。
在训练中应用了包括物理参数、外部推力和运动扰动在内的系统域随机化，以增强策略的鲁棒性和泛化能力。

Card 05 数据集与资源

数据集与资源

使用了一个内部大规模人类动作捕捉数据集，包含来自 170名受试者、超过 1亿帧（700小时）的高质量运动数据，涵盖移动、日常活动、手势和战斗动作等。
模型规模从 120万参数 扩展至 4200万参数。
在 128个GPU 上进行分布式训练，总计 9000 GPU小时（持续约3天）。

Card 06 评估与结果

评估与结果

主要在 Isaac Lab 和 MuJoCo 仿真环境中评估，并在 Unitree G1 人形机器人上进行真实世界部署。
评估指标包括成功率、平均关节位置误差(MPJPE)、加速度误差(E_acc)和速度误差(E_vel)。
实验表明，随着数据集规模、模型大小和计算量的增加，跟踪性能持续稳定提升。
在包含9小时未见运动轨迹的测试集上，SONIC在真实世界达到了 100%的成功率，并且其性能在所有指标上均显著优于 Any2Track、BeyondMimic 和 GMT 等现有基线方法。