返回列表 VLA / Vision-Language-Action 每日论文卡
Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization
论文提出 Being-H0.5,一个面向跨实体泛化的基础视觉-语言-动作(VLA)模型,旨在解决现有 VLAs 在形态异质性和数据稀缺方面的挑战

论文详情

Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

2026-01-19 · 原文 · 翻译 · 2601.12993

论文提出 Being-H0.5,一个面向跨实体泛化的基础视觉-语言-动作(VLA)模型,旨在解决现有 VLAs 在形态异质性和数据稀缺方面的挑战 核心思想是以人为中心的机器人学习范式:将人类交互轨迹作为物理交互的通用"母语",利用人类手部运动作为传递物理知识的桥梁 构建了 UniHand-2.0,目前最大规模的实体预训练数据集,包含超过 35,000 小时 的多模态数据,涵盖 30 种不同机器人实体

6 分钟读完 6 张阅读卡 BeingBeyond Team(BeingBeyond 公司团队)
一眼看懂 封面预览

论文提出 Being-H0.5,一个面向跨实体泛化的基础视觉-语言-动作(VLA)模型,旨在解决现有 VLAs 在形态异质性和数据稀缺方面的挑战

  • 论文提出 Being-H0.5,一个面向跨实体泛化的基础视觉-语言-动作(VLA)模型,旨在解决现有 VLAs 在形态异质性和数据稀缺方面的挑战
  • 核心思想是以人为中心的机器人学习范式:将人类交互轨迹作为物理交互的通用"母语",利用人类手部运动作为传递物理知识的桥梁
  • 构建了 UniHand-2.0,目前最大规模的实体预训练数据集,包含超过 35,000 小时 的多模态数据,涵盖 30 种不同机器人实体
Card 01 研究单位

研究单位

  • BeingBeyond Team(BeingBeyond 公司团队)
Card 02 论文概述

论文概述

  • 论文提出 Being-H0.5,一个面向跨实体泛化的基础视觉-语言-动作(VLA)模型,旨在解决现有 VLAs 在形态异质性和数据稀缺方面的挑战
  • 核心思想是以人为中心的机器人学习范式:将人类交互轨迹作为物理交互的通用"母语",利用人类手部运动作为传递物理知识的桥梁
  • 构建了 UniHand-2.0,目前最大规模的实体预训练数据集,包含超过 35,000 小时 的多模态数据,涵盖 30 种不同机器人实体
Card 03 核心贡献

核心贡献

  • 最大规模训练数据:UniHand-2.0 包含 400M+ 样本、35,000 小时数据(16,000 小时人类视频、14,000 小时机器人操作),覆盖 30 种实体
  • 统一训练范式:首次将人类手部运动与多样化机器人控制统一到单一动作空间,实现跨实体泛化的可扩展预训练
  • 架构创新:提出 Mixture-of-Flow、Manifold-Preserving Gating、Universal Async Chunking 等组件,解决流式动作生成的可扩展性瓶颈
  • 实时推理基础设施:开发高效推理基础设施,支持低延迟实时控制和高自由度复杂平台部署
  • SOTA 实验结果:在 LIBERO(98.9%)和 RoboCasa(53.9%)上达到最先进水平,并展示了对未见实体的新兴零样本迁移能力
Card 04 方法描述

方法描述

  • 统一状态-动作空间:将异构机器人控制映射到语义对齐的槽位,将人类手部 MANO 模型参数直接映射到统一空间,作为广义实体模板
  • Mixture-of-Flow(MoF):解耦共享电机原语与专用实体专家,包含基础专家(共享动力学)和专门专家(实体与任务路由)
  • 统一序列建模:将所有异构监督序列化为统一的多模态 token 流,视觉文本提供上下文 grounding,统一状态/动作 token 承载物理交互信号
  • Manifold-Preserving Gating:在感知模糊时依赖可靠上下文并回退到稳健先验,防止不稳定修正被迭代细化放大
  • Universal Async Chunking:跨实体设置扩展分块控制,使统一策略在不同延迟和控制配置下保持一致性
Card 05 数据集与资源

数据集与资源

  • UniHand-2.0 数据集:35,000+ 小时,400M+ 样本,120B+ 训练 token

- 人类演示数据:16,000 小时(25.6B tokens),来自 Ego4D、EPIC-KITCHENS 等

- 机器人操作数据:14,000 小时(45.7B tokens),30 种实体(Franka、Agibot-G1、Unitree G1 等)

- 视觉-语言理解数据:5,000 等效小时(50.2B tokens)

  • 模型骨干:基于 InternVL-3.5 VLM 初始化
  • 实体类型:单臂机器人、双臂机器人、便携式机械臂、半人形机器人、人形机器人
Card 06 评估与结果

评估与结果

  • 模拟基准

- LIBERO:98.9%(SOTA)

- RoboCasa:53.9%(SOTA)

  • 真实机器人实验:在 5 个不同实体上部署单一 Being-H0.5 检查点(PND Adam-U、Franka+Inspire、Unitree G1、BeingBeyond D1、LeRobot SO-101)
  • 跨实体泛化:显著优于 π0.5,尤其在长程和双手机任务上
  • 新兴零样本迁移:单一通用检查点对未见的任务-实体对实现非零成功率