Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

一眼看懂封面预览

论文提出 Being-H0.5，一个面向跨实体泛化的基础视觉-语言-动作（VLA）模型，旨在解决现有 VLAs 在形态异质性和数据稀缺方面的挑战

Card 01 研究单位

研究单位

Card 02 论文概述

论文提出 Being-H0.5，一个面向跨实体泛化的基础视觉-语言-动作（VLA）模型，旨在解决现有 VLAs 在形态异质性和数据稀缺方面的挑战
核心思想是以人为中心的机器人学习范式：将人类交互轨迹作为物理交互的通用"母语"，利用人类手部运动作为传递物理知识的桥梁
构建了 UniHand-2.0，目前最大规模的实体预训练数据集，包含超过 35,000 小时 的多模态数据，涵盖 30 种不同机器人实体

Card 03 核心贡献

最大规模训练数据：UniHand-2.0 包含 400M+ 样本、35,000 小时数据（16,000 小时人类视频、14,000 小时机器人操作），覆盖 30 种实体
统一训练范式：首次将人类手部运动与多样化机器人控制统一到单一动作空间，实现跨实体泛化的可扩展预训练
架构创新：提出 Mixture-of-Flow、Manifold-Preserving Gating、Universal Async Chunking 等组件，解决流式动作生成的可扩展性瓶颈
实时推理基础设施：开发高效推理基础设施，支持低延迟实时控制和高自由度复杂平台部署
SOTA 实验结果：在 LIBERO（98.9%）和 RoboCasa（53.9%）上达到最先进水平，并展示了对未见实体的新兴零样本迁移能力

Card 04 方法描述

Card 05 数据集与资源

- 人类演示数据：16,000 小时（25.6B tokens），来自 Ego4D、EPIC-KITCHENS 等

- 机器人操作数据：14,000 小时（45.7B tokens），30 种实体（Franka、Agibot-G1、Unitree G1 等）

- 视觉-语言理解数据：5,000 等效小时（50.2B tokens）

Card 06 评估与结果

- LIBERO：98.9%（SOTA）

- RoboCasa：53.9%（SOTA）

真实机器人实验：在 5 个不同实体上部署单一 Being-H0.5 检查点（PND Adam-U、Franka+Inspire、Unitree G1、BeingBeyond D1、LeRobot SO-101）
跨实体泛化：显著优于 π0.5，尤其在长程和双手机任务上
新兴零样本迁移：单一通用检查点对未见的任务-实体对实现非零成功率