返回列表 VLA / Vision-Language-Action 每日论文卡
EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration
提出EgoHumanoid框架,首个利用无机器人自我中心人类演示与有限机器人数据进行协同训练,实现仿人机器人在多样化真实环境中进行运动-操作的…

论文详情

EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration

2026-02-10 · 原文 · 翻译 · 2602.10106

提出EgoHumanoid框架,首个利用无机器人自我中心人类演示与有限机器人数据进行协同训练,实现仿人机器人在多样化真实环境中进行运动-操作的研究 旨在解决人类与仿人机器人之间巨大的具身差距问题,包括形态差异、视觉视角差异和动作空间差异 通过系统化的对齐流程,使机器人能够在未见过的真实世界场景中泛化执行全身协调任务

4 分钟读完 6 张阅读卡 论文作者来自多个机构(具体单位名称在提供的内容中未明确列出)
一眼看懂 封面预览

提出EgoHumanoid框架,首个利用无机器人自我中心人类演示与有限机器人数据进行协同训练,实现仿人机器人在多样化真实环境中进行运动-操作的…

  • 提出EgoHumanoid框架,首个利用无机器人自我中心人类演示与有限机器人数据进行协同训练,实现仿人机器人在多样化真实环境中进行运动-操作的…
  • 旨在解决人类与仿人机器人之间巨大的具身差距问题,包括形态差异、视觉视角差异和动作空间差异
  • 通过系统化的对齐流程,使机器人能够在未见过的真实世界场景中泛化执行全身协调任务
Card 01 研究单位

研究单位

  • 论文作者来自多个机构(具体单位名称在提供的内容中未明确列出)
  • 致谢部分提及研究得到国家自然科学基金(62206172)和香港赛马会慈善信托基金资助的JC STEM自主智能系统实验室支持
Card 02 论文概述

论文概述

  • 提出EgoHumanoid框架,首个利用无机器人自我中心人类演示与有限机器人数据进行协同训练,实现仿人机器人在多样化真实环境中进行运动-操作的研究
  • 旨在解决人类与仿人机器人之间巨大的具身差距问题,包括形态差异、视觉视角差异和动作空间差异
  • 通过系统化的对齐流程,使机器人能够在未见过的真实世界场景中泛化执行全身协调任务
Card 03 核心贡献

核心贡献

  • 首个验证:首次实现人类到仿人机器人的全身运动-操作任务迁移,证明了跨具身协同训练的可行性
  • 对齐流程:提出原则性的具身对齐流程,包含视角对齐(减少视觉域差异)和动作对齐(映射到统一动作空间)
  • 系统实现:开发便携式数据收集系统和实用采集协议,支持可扩展的人类数据收集
  • 全面评估:通过真实世界实验和分析,揭示了哪些行为可以有效迁移,并展示了人类数据的扩展潜力
Card 04 方法描述

方法描述

  • 数据收集系统:使用基于VR的统一硬件设置,包括PICO VR头显、动作追踪器和ZED X Mini相机,可灵活切换人类演示和机器人遥操作模式
  • 视角对齐:采用MoGe深度估计、重投影变换和基于扩散模型的图像修复技术,将人类自我中心视角转换为近似机器人相机视角
  • 动作对齐:设计统一动作空间,上半身使用6自由度delta末端执行器姿态,下半身使用离散导航命令,并通过滤波和平滑处理人类运动数据
  • 协同训练:基于π0.5 VLA模型进行微调,采用多源数据采样策略处理数据不平衡问题
Card 05 数据集与资源

数据集与资源

  • 自定义数据集:包含人类演示数据(D_human)和机器人遥操作数据(D_robot)
  • 数据规模:机器人数据每任务100集,人类演示数据共300集
  • 模型基础:基于π0.5视觉-语言-动作模型进行微调
  • 训练资源:8块NVIDIA A100 GPU,批量大小256,训练20,000步
Card 06 评估与结果

评估与结果

  • 评估环境:四个真实世界运动-操作任务:枕头放置、垃圾处理、玩具转移、推车收纳,涵盖室内外场景
  • 评估指标:归一化分数,每设置进行20次试验
  • 关键结果

- 协同训练在泛化场景中性能比仅机器人基准提升51%,平均提升20%

- 人类数据有效迁移导航行为,粗略操作任务也能受益

- 精细操作任务需要更多机器人数据,但人类数据提供了有用的先验

- 随着人类数据量增加,性能持续提升,展示了扩展潜力