一眼看懂
封面预览
提出 RoboGhost,一个无需重定向(retargeting-free)的框架,直接使用语言生成的运动潜表示(motion latents…
- 提出 RoboGhost,一个无需重定向(retargeting-free)的框架,直接使用语言生成的运动潜表示(motion latents…
- 核心创新是将运动潜表示作为一级条件信号,而非显式的人体运动姿态,实现从语言到动作的直接映射
- 采用基于扩散模型的人形策略,通过 DDIM 加速采样实现实时部署,同时保持语义对齐和物理可行性
Card 01
研究单位
研究单位
- University of Sydney(悉尼大学)- 澳大利亚
- BAAI(北京人工智能研究院)- 中国
- Harbin Institute of Technology(哈尔滨工业大学)- 中国
- Hong Kong University of Science and Technology(香港科技大学)- 中国香港
- Shanghai Jiao Tong University(上海交通大学)- 中国
- Peking University(北京大学)- 中国
Card 02
论文概述
论文概述
- 提出 RoboGhost,一个无需重定向(retargeting-free)的框架,直接使用语言生成的运动潜表示(motion latents)来驱动人形机器人策略学习,消除了传统流程中容易出错的运动解码和重定向阶段
- 核心创新是将运动潜表示作为一级条件信号,而非显式的人体运动姿态,实现从语言到动作的直接映射
- 采用基于扩散模型的人形策略,通过 DDIM 加速采样实现实时部署,同时保持语义对齐和物理可行性
Card 03
核心贡献
核心贡献
- 首次提出基于运动潜表示的扩散人形策略,直接从噪声中去噪生成可执行动作
- 提出无需重定向的潜驱动框架,消除传统多阶段流程中的错误累积和部署延迟
- 设计混合 Transformer-Diffusion 架构,统一长期时间一致性与随机稳定性
- 引入因果自适应采样策略,提高样本效率以学习长程、敏捷的运动技能
- 在模拟环境和真实机器人(Unitree G1)上验证,实现 5% 成功率提升和部署时间从 17.85s 降至 5.84s
Card 04
方法描述
方法描述
- 连续自回归运动生成器:采用因果自编码器和连续掩码自回归架构,使用因果注意力掩码捕捉时间依赖,通过 γ(τ)=cos(πτ/2) 调度掩码率
- MoE 教师策略:使用 PPO 训练教师策略,采用混合专家模块(5 个专家网络+门控网络),利用特权信息(根速度、全局关节位置、物理属性等)实现精确运动跟踪
- 扩散学生策略:采用 DAgger 类方法训练,用运动潜表示替代显式参考运动,使用 x₀ 预测策略和 MSE 损失监督
- 推理流程:文本描述输入运动生成器得到潜表示,经 AdaLN 条件注入到扩散模型,结合本体感觉状态和历史观测去噪生成可执行动作
- 因果自适应采样:将运动序列分为 K 个等长区间,根据失败统计动态调整采样概率,使用指数衰减核 α(u)=γᵘ 为失败前的时间步分配更高权重
Card 05
数据集与资源
数据集与资源
- 数据集:HumanML3D(263维)、MotionMillion 的 HumanML 和 Kungfu 子集(272维)
- 模拟器:IsaacGym、MuJoCo
- 真实机器人:Unitree G1 人形机器人(23 自由度)
- 策略网络:教师策略 Actor/Value MLP [512,256,128],学生策略 MLP [256,256,256],4 层
- 训练配置:AdamW 优化器,β₁=0.9, β₂=0.999,学习率 1×10⁻⁴,PPO discount γ=0.99
Card 06
评估与结果
评估与结果
- 评估环境:IsaacGym 物理模拟器、MuJoCo 跨模拟器迁移、真实 Unitree G1 机器人
- 主要指标:成功率(Success Rate)、平均关节误差(E_mpjpe)、平均关键点误差(E_mpkpe)、R@1/2/3 精度、FID、MM-Dist
- 关键结果:
- HumanML 子集:IsaacGym 成功率 97%(Baseline 92%),MuJoCo 成功率 74%(Baseline 64%)
- Kungfu 子集:IsaacGym 成功率 71%-72%
- 消融实验:扩散策略相比 MLP 策略在泛化测试中成功率从 54% 提升至 68%
- 部署延迟:从 17.85s 降至 5.84s