LHM-Humanoid: Learning a Unified Policy for Long-Horizon Humanoid Whole-Body Loco-Manipulation in Diverse Messy Environments

一眼看懂封面预览

提出 LHM-Humanoid，一个用于长时程人形机器人全身运动-操作（loco-manipulation）的基准测试和学习框架，目标是在多样…

Card 01 研究单位

研究单位

Card 02 论文概述

提出 LHM-Humanoid，一个用于长时程人形机器人全身运动-操作（loco-manipulation）的基准测试和学习框架，目标是在多样化、杂乱的环境中实现连续多物体搬运任务
解决的核心问题：人形机器人需要在无环境重置的单一连续回合中，反复完成"行走-抓取-搬运-放置"的完整周期，同时应对跨场景泛化和统一端到端策略控制的挑战

Card 03 核心贡献

LHM-Humanoid 基准测试：包含 350 个长时程多样化杂乱场景/任务，覆盖卧室、客厅、厨房和仓库四种房间类型，强调跨场景和未见过场景的泛化能力
双教师蒸馏框架：设计两个目标条件化的 RL 教师策略（Teacher 1 完成首个物体周期并执行释放-后退过渡；Teacher 2 从非规范状态继续完成下一个物体周期），通过 DAgger 蒸馏为单一端到端学生策略
VLA 扩展：将统一策略进一步蒸馏为基于第一人称 RGB 观察和自然语言条件的视觉-语言-动作（VLA）模型，支持交互式指令跟随
释放-后退（Release-and-Retreat）机制：显式训练稳定的阶段间过渡行为，确保多周期任务中的错误传播最小化
零样本扩展到更长时程：在 2 个物体上训练的策略可直接泛化到 3-5 个物体的序列，无需额外微调

Card 04 方法描述

采用三阶段训练流程：（1）Teacher 1 预训练单物体任务，结合 AMP 对抗运动先验奖励学习类人运动，再通过释放-后退微调稳定终端状态；（2）Teacher 2 从 Teacher 1 的终端非规范状态开始，训练恢复运动和下一个物体操作；（3）通过 DAgger 将两个教师策略蒸馏为统一的学生策略
关键创新：释放-后退奖励函数显式优化机器人与已放置物体的距离，防止干扰并为下一阶段提供稳定初始状态；双教师设计扩展了状态覆盖分布，避免单教师策略的分布外失效问题
VLA 扩展：使用 EfficientNet 提取视觉特征，MLP 投影语言特征，与本体感觉特征融合后通过残差 MLP 解码为控制动作

Card 05 数据集与资源

数据集：350 个训练场景/任务 + 66 个未见过测试任务，涵盖 79 种物体（25 种可移动目标），每种场景包含两个连续的抓取-搬运-放置周期
仿真平台：Isaac Gym，运行频率 60 Hz，策略推理频率 30 Hz
训练资源：2 张 80GB NVIDIA A100 GPU，16,384 个并行环境
训练时长：Teacher 1 训练 10,000 epoch；Teacher 2 训练 7,000 epoch；统一学生策略蒸馏 50,000 epoch

Card 06 评估与结果

评估指标：Success 1/2（单周期成功率）、Success All（双周期全部完成率）、Dist 1/2（最终放置误差，单位米）
主要结果（350 个训练任务）：LHM-Humanoid-T 达到 88.76% / 72.86% / 72.38% 的 Success 1/2/All，放置误差 0.25m / 0.48m；蒸馏后的 LHM-Humanoid-S 达到 71.14% Success All，显著优于端到端 RL（0%）、课程 RL（47.19%）、分层 RL（20.84%）、HumanVLA（29.92%）等基线
未见过场景泛化（66 个任务）：LHM-Humanoid-T 保持 63.20% Success All，而最强基线课程 RL 降至 39.50%，证明释放-后退和双教师设计对分布外泛化的关键作用
VLA 扩展结果：LHM-Humanoid-S VLA 模型达到 63.71% Success All，相比基线 VLA 模型（最高 40.71%）提升超过 20 个百分点，证明策略行为可有效迁移到感知条件设置
扩展到 5 个物体：LHM-Humanoid-S 在零样本测试下达到 18.07% 全周期完成率，而所有基线均降至 1.67% 以下或归零，验证了长时程鲁棒性和可扩展性