返回列表 VLA / Vision-Language-Action 每日论文卡
From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance
提出 RoboGhost,一个无需重定向(retargeting-free)的框架,直接使用语言生成的运动潜表示(motion latents…

论文详情

From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance

2025-10-16 · 原文 · 翻译 · 2510.14952

提出 RoboGhost,一个无需重定向(retargeting-free)的框架,直接使用语言生成的运动潜表示(motion latents)来驱动人形机器人策略学习,消除了传统流程中容易出错的运动解码和重定向阶段 核心创新是将运动潜表示作为一级条件信号,而非显式的人体运动姿态,实现从语言到动作的直接映射 采用基于扩散模型的人形策略,通过 DDIM 加速采样实现实时部署,同时保持语义对齐和物理可行性

6 分钟读完 6 张阅读卡 University of Sydney(悉尼大学)- 澳大利亚
一眼看懂 封面预览

提出 RoboGhost,一个无需重定向(retargeting-free)的框架,直接使用语言生成的运动潜表示(motion latents…

  • 提出 RoboGhost,一个无需重定向(retargeting-free)的框架,直接使用语言生成的运动潜表示(motion latents…
  • 核心创新是将运动潜表示作为一级条件信号,而非显式的人体运动姿态,实现从语言到动作的直接映射
  • 采用基于扩散模型的人形策略,通过 DDIM 加速采样实现实时部署,同时保持语义对齐和物理可行性
Card 01 研究单位

研究单位

  • University of Sydney(悉尼大学)- 澳大利亚
  • BAAI(北京人工智能研究院)- 中国
  • Harbin Institute of Technology(哈尔滨工业大学)- 中国
  • Hong Kong University of Science and Technology(香港科技大学)- 中国香港
  • Shanghai Jiao Tong University(上海交通大学)- 中国
  • Peking University(北京大学)- 中国
Card 02 论文概述

论文概述

  • 提出 RoboGhost,一个无需重定向(retargeting-free)的框架,直接使用语言生成的运动潜表示(motion latents)来驱动人形机器人策略学习,消除了传统流程中容易出错的运动解码和重定向阶段
  • 核心创新是将运动潜表示作为一级条件信号,而非显式的人体运动姿态,实现从语言到动作的直接映射
  • 采用基于扩散模型的人形策略,通过 DDIM 加速采样实现实时部署,同时保持语义对齐和物理可行性
Card 03 核心贡献

核心贡献

  • 首次提出基于运动潜表示的扩散人形策略,直接从噪声中去噪生成可执行动作
  • 提出无需重定向的潜驱动框架,消除传统多阶段流程中的错误累积和部署延迟
  • 设计混合 Transformer-Diffusion 架构,统一长期时间一致性与随机稳定性
  • 引入因果自适应采样策略,提高样本效率以学习长程、敏捷的运动技能
  • 在模拟环境和真实机器人(Unitree G1)上验证,实现 5% 成功率提升和部署时间从 17.85s 降至 5.84s
Card 04 方法描述

方法描述

  • 连续自回归运动生成器:采用因果自编码器和连续掩码自回归架构,使用因果注意力掩码捕捉时间依赖,通过 γ(τ)=cos(πτ/2) 调度掩码率
  • MoE 教师策略:使用 PPO 训练教师策略,采用混合专家模块(5 个专家网络+门控网络),利用特权信息(根速度、全局关节位置、物理属性等)实现精确运动跟踪
  • 扩散学生策略:采用 DAgger 类方法训练,用运动潜表示替代显式参考运动,使用 x₀ 预测策略和 MSE 损失监督
  • 推理流程:文本描述输入运动生成器得到潜表示,经 AdaLN 条件注入到扩散模型,结合本体感觉状态和历史观测去噪生成可执行动作
  • 因果自适应采样:将运动序列分为 K 个等长区间,根据失败统计动态调整采样概率,使用指数衰减核 α(u)=γᵘ 为失败前的时间步分配更高权重
Card 05 数据集与资源

数据集与资源

  • 数据集:HumanML3D(263维)、MotionMillion 的 HumanML 和 Kungfu 子集(272维)
  • 模拟器:IsaacGym、MuJoCo
  • 真实机器人:Unitree G1 人形机器人(23 自由度)
  • 策略网络:教师策略 Actor/Value MLP [512,256,128],学生策略 MLP [256,256,256],4 层
  • 训练配置:AdamW 优化器,β₁=0.9, β₂=0.999,学习率 1×10⁻⁴,PPO discount γ=0.99
Card 06 评估与结果

评估与结果

  • 评估环境:IsaacGym 物理模拟器、MuJoCo 跨模拟器迁移、真实 Unitree G1 机器人
  • 主要指标:成功率(Success Rate)、平均关节误差(E_mpjpe)、平均关键点误差(E_mpkpe)、R@1/2/3 精度、FID、MM-Dist
  • 关键结果

- HumanML 子集:IsaacGym 成功率 97%(Baseline 92%),MuJoCo 成功率 74%(Baseline 64%)

- Kungfu 子集:IsaacGym 成功率 71%-72%

- 消融实验:扩散策略相比 MLP 策略在泛化测试中成功率从 54% 提升至 68%

- 部署延迟:从 17.85s 降至 5.84s