From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance

一眼看懂封面预览

提出 RoboGhost，一个无需重定向（retargeting-free）的框架，直接使用语言生成的运动潜表示（motion latents…

Card 01 研究单位

研究单位

Card 02 论文概述

提出 RoboGhost，一个无需重定向（retargeting-free）的框架，直接使用语言生成的运动潜表示（motion latents）来驱动人形机器人策略学习，消除了传统流程中容易出错的运动解码和重定向阶段
核心创新是将运动潜表示作为一级条件信号，而非显式的人体运动姿态，实现从语言到动作的直接映射
采用基于扩散模型的人形策略，通过 DDIM 加速采样实现实时部署，同时保持语义对齐和物理可行性

Card 03 核心贡献

Card 04 方法描述

连续自回归运动生成器：采用因果自编码器和连续掩码自回归架构，使用因果注意力掩码捕捉时间依赖，通过 γ(τ)=cos(πτ/2) 调度掩码率
MoE 教师策略：使用 PPO 训练教师策略，采用混合专家模块（5 个专家网络+门控网络），利用特权信息（根速度、全局关节位置、物理属性等）实现精确运动跟踪
扩散学生策略：采用 DAgger 类方法训练，用运动潜表示替代显式参考运动，使用 x₀ 预测策略和 MSE 损失监督
推理流程：文本描述输入运动生成器得到潜表示，经 AdaLN 条件注入到扩散模型，结合本体感觉状态和历史观测去噪生成可执行动作
因果自适应采样：将运动序列分为 K 个等长区间，根据失败统计动态调整采样概率，使用指数衰减核 α(u)=γᵘ 为失败前的时间步分配更高权重

Card 05 数据集与资源

Card 06 评估与结果

评估环境：IsaacGym 物理模拟器、MuJoCo 跨模拟器迁移、真实 Unitree G1 机器人
主要指标：成功率（Success Rate）、平均关节误差（E_mpjpe）、平均关键点误差（E_mpkpe）、R@1/2/3 精度、FID、MM-Dist
关键结果：

- HumanML 子集：IsaacGym 成功率 97%（Baseline 92%），MuJoCo 成功率 74%（Baseline 64%）

- Kungfu 子集：IsaacGym 成功率 71%-72%

- 消融实验：扩散策略相比 MLP 策略在泛化测试中成功率从 54% 提升至 68%

- 部署延迟：从 17.85s 降至 5.84s