一眼看懂
封面预览
论文提出 Being-H0.5,一个面向跨实体泛化的基础视觉-语言-动作(VLA)模型,旨在解决现有 VLAs 在形态异质性和数据稀缺方面的挑战
- 论文提出 Being-H0.5,一个面向跨实体泛化的基础视觉-语言-动作(VLA)模型,旨在解决现有 VLAs 在形态异质性和数据稀缺方面的挑战
- 核心思想是以人为中心的机器人学习范式:将人类交互轨迹作为物理交互的通用"母语",利用人类手部运动作为传递物理知识的桥梁
- 构建了 UniHand-2.0,目前最大规模的实体预训练数据集,包含超过 35,000 小时 的多模态数据,涵盖 30 种不同机器人实体
Card 01
研究单位
研究单位
- BeingBeyond Team(BeingBeyond 公司团队)
Card 02
论文概述
论文概述
- 论文提出 Being-H0.5,一个面向跨实体泛化的基础视觉-语言-动作(VLA)模型,旨在解决现有 VLAs 在形态异质性和数据稀缺方面的挑战
- 核心思想是以人为中心的机器人学习范式:将人类交互轨迹作为物理交互的通用"母语",利用人类手部运动作为传递物理知识的桥梁
- 构建了 UniHand-2.0,目前最大规模的实体预训练数据集,包含超过 35,000 小时 的多模态数据,涵盖 30 种不同机器人实体
Card 03
核心贡献
核心贡献
- 最大规模训练数据:UniHand-2.0 包含 400M+ 样本、35,000 小时数据(16,000 小时人类视频、14,000 小时机器人操作),覆盖 30 种实体
- 统一训练范式:首次将人类手部运动与多样化机器人控制统一到单一动作空间,实现跨实体泛化的可扩展预训练
- 架构创新:提出 Mixture-of-Flow、Manifold-Preserving Gating、Universal Async Chunking 等组件,解决流式动作生成的可扩展性瓶颈
- 实时推理基础设施:开发高效推理基础设施,支持低延迟实时控制和高自由度复杂平台部署
- SOTA 实验结果:在 LIBERO(98.9%)和 RoboCasa(53.9%)上达到最先进水平,并展示了对未见实体的新兴零样本迁移能力
Card 04
方法描述
方法描述
- 统一状态-动作空间:将异构机器人控制映射到语义对齐的槽位,将人类手部 MANO 模型参数直接映射到统一空间,作为广义实体模板
- Mixture-of-Flow(MoF):解耦共享电机原语与专用实体专家,包含基础专家(共享动力学)和专门专家(实体与任务路由)
- 统一序列建模:将所有异构监督序列化为统一的多模态 token 流,视觉文本提供上下文 grounding,统一状态/动作 token 承载物理交互信号
- Manifold-Preserving Gating:在感知模糊时依赖可靠上下文并回退到稳健先验,防止不稳定修正被迭代细化放大
- Universal Async Chunking:跨实体设置扩展分块控制,使统一策略在不同延迟和控制配置下保持一致性
Card 05
数据集与资源
数据集与资源
- UniHand-2.0 数据集:35,000+ 小时,400M+ 样本,120B+ 训练 token
- 人类演示数据:16,000 小时(25.6B tokens),来自 Ego4D、EPIC-KITCHENS 等
- 机器人操作数据:14,000 小时(45.7B tokens),30 种实体(Franka、Agibot-G1、Unitree G1 等)
- 视觉-语言理解数据:5,000 等效小时(50.2B tokens)
- 模型骨干:基于 InternVL-3.5 VLM 初始化
- 实体类型:单臂机器人、双臂机器人、便携式机械臂、半人形机器人、人形机器人
Card 06
评估与结果
评估与结果
- 模拟基准:
- LIBERO:98.9%(SOTA)
- RoboCasa:53.9%(SOTA)
- 真实机器人实验:在 5 个不同实体上部署单一 Being-H0.5 检查点(PND Adam-U、Franka+Inspire、Unitree G1、BeingBeyond D1、LeRobot SO-101)
- 跨实体泛化:显著优于 π0.5,尤其在长程和双手机任务上
- 新兴零样本迁移:单一通用检查点对未见的任务-实体对实现非零成功率