一眼看懂
封面预览
提出 LHM-Humanoid,一个用于长时程人形机器人全身运动-操作(loco-manipulation)的基准测试和学习框架,目标是在多样…
- 提出 LHM-Humanoid,一个用于长时程人形机器人全身运动-操作(loco-manipulation)的基准测试和学习框架,目标是在多样…
- 解决的核心问题:人形机器人需要在无环境重置的单一连续回合中,反复完成"行走-抓取-搬运-放置"的完整周期,同时应对跨场景泛化和统一端到端策略控…
- LHM-Humanoid 基准测试:包含 350 个长时程多样化杂乱场景/任务,覆盖卧室、客厅、厨房和仓库四种房间类型,强调跨场景和未见过场景…
Card 01
研究单位
研究单位
- The University of Manchester, Manchester, UK
- X-Humanoid, Beijing, China
- Peking University, Beijing, China
- University of Hong Kong, Hong Kong, China
Card 02
论文概述
论文概述
- 提出 LHM-Humanoid,一个用于长时程人形机器人全身运动-操作(loco-manipulation)的基准测试和学习框架,目标是在多样化、杂乱的环境中实现连续多物体搬运任务
- 解决的核心问题:人形机器人需要在无环境重置的单一连续回合中,反复完成"行走-抓取-搬运-放置"的完整周期,同时应对跨场景泛化和统一端到端策略控制的挑战
Card 03
核心贡献
核心贡献
- LHM-Humanoid 基准测试:包含 350 个长时程多样化杂乱场景/任务,覆盖卧室、客厅、厨房和仓库四种房间类型,强调跨场景和未见过场景的泛化能力
- 双教师蒸馏框架:设计两个目标条件化的 RL 教师策略(Teacher 1 完成首个物体周期并执行释放-后退过渡;Teacher 2 从非规范状态继续完成下一个物体周期),通过 DAgger 蒸馏为单一端到端学生策略
- VLA 扩展:将统一策略进一步蒸馏为基于第一人称 RGB 观察和自然语言条件的视觉-语言-动作(VLA)模型,支持交互式指令跟随
- 释放-后退(Release-and-Retreat)机制:显式训练稳定的阶段间过渡行为,确保多周期任务中的错误传播最小化
- 零样本扩展到更长时程:在 2 个物体上训练的策略可直接泛化到 3-5 个物体的序列,无需额外微调
Card 04
方法描述
方法描述
- 采用三阶段训练流程:(1)Teacher 1 预训练单物体任务,结合 AMP 对抗运动先验奖励学习类人运动,再通过释放-后退微调稳定终端状态;(2)Teacher 2 从 Teacher 1 的终端非规范状态开始,训练恢复运动和下一个物体操作;(3)通过 DAgger 将两个教师策略蒸馏为统一的学生策略
- 关键创新:释放-后退奖励函数显式优化机器人与已放置物体的距离,防止干扰并为下一阶段提供稳定初始状态;双教师设计扩展了状态覆盖分布,避免单教师策略的分布外失效问题
- VLA 扩展:使用 EfficientNet 提取视觉特征,MLP 投影语言特征,与本体感觉特征融合后通过残差 MLP 解码为控制动作
Card 05
数据集与资源
数据集与资源
- 数据集:350 个训练场景/任务 + 66 个未见过测试任务,涵盖 79 种物体(25 种可移动目标),每种场景包含两个连续的抓取-搬运-放置周期
- 仿真平台:Isaac Gym,运行频率 60 Hz,策略推理频率 30 Hz
- 训练资源:2 张 80GB NVIDIA A100 GPU,16,384 个并行环境
- 训练时长:Teacher 1 训练 10,000 epoch;Teacher 2 训练 7,000 epoch;统一学生策略蒸馏 50,000 epoch
Card 06
评估与结果
评估与结果
- 评估指标:Success 1/2(单周期成功率)、Success All(双周期全部完成率)、Dist 1/2(最终放置误差,单位米)
- 主要结果(350 个训练任务):LHM-Humanoid-T 达到 88.76% / 72.86% / 72.38% 的 Success 1/2/All,放置误差 0.25m / 0.48m;蒸馏后的 LHM-Humanoid-S 达到 71.14% Success All,显著优于端到端 RL(0%)、课程 RL(47.19%)、分层 RL(20.84%)、HumanVLA(29.92%)等基线
- 未见过场景泛化(66 个任务):LHM-Humanoid-T 保持 63.20% Success All,而最强基线课程 RL 降至 39.50%,证明释放-后退和双教师设计对分布外泛化的关键作用
- VLA 扩展结果:LHM-Humanoid-S VLA 模型达到 63.71% Success All,相比基线 VLA 模型(最高 40.71%)提升超过 20 个百分点,证明策略行为可有效迁移到感知条件设置
- 扩展到 5 个物体:LHM-Humanoid-S 在零样本测试下达到 18.07% 全周期完成率,而所有基线均降至 1.67% 以下或归零,验证了长时程鲁棒性和可扩展性