一眼看懂
封面预览
论文提出 SONIC,一个通过规模化运动跟踪实现自然人形机器人全身控制的框架。
- 论文提出 SONIC,一个通过规模化运动跟踪实现自然人形机器人全身控制的框架。
- 核心目标是解决人形机器人控制领域尚未像其他AI领域那样实现规模化增益的问题,即构建一个通用、强健的控制器。
- 论文将运动跟踪确立为可扩展的基础任务,利用大规模动作捕捉数据提供密集监督,无需手工设计奖励函数。
Card 01
研究单位
研究单位
- 所有作者均来自 NVIDIA。
Card 02
论文概述
论文概述
- 论文提出 SONIC,一个通过规模化运动跟踪实现自然人形机器人全身控制的框架。
- 核心目标是解决人形机器人控制领域尚未像其他AI领域那样实现规模化增益的问题,即构建一个通用、强健的控制器。
- 论文将运动跟踪确立为可扩展的基础任务,利用大规模动作捕捉数据提供密集监督,无需手工设计奖励函数。
Card 03
核心贡献
核心贡献
- 识别并验证了运动跟踪作为人形机器人控制的可扩展基础任务,展示了其在计算量和数据多样性方面的规模化优势,将控制策略扩展到 4200万参数,数据量超 1亿帧,计算量达 9000 GPU小时。
- 引入了一个用于交互控制的实时运动学生成规划器,以及一个统一的token空间,支持遥操作、人类视频、文本、音乐和视觉-语言-动作(VLA)模型等多种输入模态,通过单一策略实现多模态控制。
- 提供了全面的实证评估,证明了人形机器人控制的规模化趋势、对未见运动的零样本泛化能力、在真实人形机器人上稳健的仿真到现实迁移,以及与基础模型的成功集成。
Card 04
方法描述
方法描述
- 将运动跟踪形式化为马尔可夫决策过程,采用近端策略优化算法进行训练,奖励函数结合了跟踪误差惩罚和正则化项。
- 设计了包含专用编码器(机器人、人类、混合运动)、向量量化器和共享解码器的统一控制策略架构,将异构运动命令映射到共享的“通用token”潜在空间。
- 引入了生成式运动学生成规划器,采用基于Transformer的掩码token预测方法在潜在空间中进行自回归运动插值,并结合一个关键阻尼弹簧模型从用户命令生成目标轨迹。
- 在训练中应用了包括物理参数、外部推力和运动扰动在内的系统域随机化,以增强策略的鲁棒性和泛化能力。
Card 05
数据集与资源
数据集与资源
- 使用了一个内部大规模人类动作捕捉数据集,包含来自 170名受试者、超过 1亿帧(700小时)的高质量运动数据,涵盖移动、日常活动、手势和战斗动作等。
- 模型规模从 120万参数 扩展至 4200万参数。
- 在 128个GPU 上进行分布式训练,总计 9000 GPU小时(持续约3天)。
Card 06
评估与结果
评估与结果
- 主要在 Isaac Lab 和 MuJoCo 仿真环境中评估,并在 Unitree G1 人形机器人上进行真实世界部署。
- 评估指标包括成功率、平均关节位置误差(MPJPE)、加速度误差(E_acc)和速度误差(E_vel)。
- 实验表明,随着数据集规模、模型大小和计算量的增加,跟踪性能持续稳定提升。
- 在包含9小时未见运动轨迹的测试集上,SONIC在真实世界达到了 100%的成功率,并且其性能在所有指标上均显著优于 Any2Track、BeyondMimic 和 GMT 等现有基线方法。