返回列表 VLA / Vision-Language-Action 每日论文卡
Emergence of Human to Robot Transfer in Vision-Language-Action Models
研究视觉-语言-动作(VLA)模型中人类到机器人迁移能力的涌现现象,探索如何利用人类视频数据提升机器人策略的泛化能力

论文详情

Emergence of Human to Robot Transfer in Vision-Language-Action Models

2025-12-27 · 原文 · 翻译 · 2512.22414

研究视觉-语言-动作(VLA)模型中人类到机器人迁移能力的涌现现象,探索如何利用人类视频数据提升机器人策略的泛化能力 提出简单的协同训练(co-training)方法,将人类视频视为另一种机器人 embodiment 进行训练,无需显式对齐 解决的核心问题:如何有效利用大规模、易获取的人类视频数据来扩展机器人学习的数据来源,克服传统方法需要手动工程对齐的局限

5 分钟读完 6 张阅读卡 Physical Intelligence(主要研究机构)
一眼看懂 封面预览

研究视觉-语言-动作(VLA)模型中人类到机器人迁移能力的涌现现象,探索如何利用人类视频数据提升机器人策略的泛化能力

  • 研究视觉-语言-动作(VLA)模型中人类到机器人迁移能力的涌现现象,探索如何利用人类视频数据提升机器人策略的泛化能力
  • 提出简单的协同训练(co-training)方法,将人类视频视为另一种机器人 embodiment 进行训练,无需显式对齐
  • 解决的核心问题:如何有效利用大规模、易获取的人类视频数据来扩展机器人学习的数据来源,克服传统方法需要手动工程对齐的局限
Card 01 研究单位

研究单位

  • Physical Intelligence(主要研究机构)
  • Georgia Institute of Technology(佐治亚理工学院)
Card 02 论文概述

论文概述

  • 研究视觉-语言-动作(VLA)模型人类到机器人迁移能力的涌现现象,探索如何利用人类视频数据提升机器人策略的泛化能力
  • 提出简单的协同训练(co-training)方法,将人类视频视为另一种机器人 embodiment 进行训练,无需显式对齐
  • 解决的核心问题:如何有效利用大规模、易获取的人类视频数据来扩展机器人学习的数据来源,克服传统方法需要手动工程对齐的局限
Card 03 核心贡献

核心贡献

  • 发现人类到机器人迁移是VLA预训练的涌现特性——当预训练数据在场景、任务和机器人形态上足够多样化时,迁移能力自然出现
  • 提出π₀.₅ + ego 训练配方:基于π₀.₅模型,通过协同训练人类数据和机器人数据,在未见场景、新物体类别和新任务语义上实现近2倍性能提升
  • 揭示多样化预训练产生形态无关表征(embodiment-agnostic representations)——通过t-SNE分析证明,预训练多样性增加时,人类和机器人数据的潜在表征自然对齐
  • 建立人类到机器人迁移基准测试,涵盖场景迁移(Spice、Dresser)、物体迁移(Bussing)和任务迁移(Sort Eggs)三个维度
  • 证明人类数据价值可与跨形态机器人数据(cross-embodiment robot data)相媲美,为大规模人类数据收集提供理论基础
Card 04 方法描述

方法描述

  • 数据收集:使用头戴相机+双腕部相机的轻量化设备采集人类第一视角视频,通过视觉SLAM重建6D头部运动,提取17个3D手部关键点
  • 动作空间对齐:将人类手部关键点转换为相对6-DoF末端执行器姿态,与机器人动作表示对齐(忽略夹爪开合)
  • 训练目标:同时使用(1)基于流的连续动作预测和(2)高层子任务语言预测,与人类和机器人数据共享相同目标
  • 微调策略:50-50比例混合人类数据(用于泛化任务)和最近邻机器人任务数据进行协同微调
Card 05 数据集与资源

数据集与资源

  • 人类数据集:约14小时人类视频(Bussing 3小时、Spice 3小时、Dresser 3小时、Sort Eggs 5小时)
  • 基础模型π₀.₅(3B参数VLA模型,基于PaliGemma VLM架构)
  • 预训练数据:包含大规模多样化机器人遥操作数据,涵盖多种场景、任务和机器人形态(ARX、mobile ARX等)
  • 对比实验:使用不同预训练程度初始化(0%、25%、50%、75%、100%、100%+X-emb跨形态数据)
Card 06 评估与结果

评估与结果

  • 评估基准:4个真实机器人任务,测试场景/物体/任务三个维度的泛化
  • 关键结果

- Spice任务:32% → 71%(场景迁移)

- Dresser任务:25% → 50%(场景迁移)

- Bussing任务:53% → 63%(物体迁移)

- Sort Eggs任务:57% → 78%(任务迁移,新增排序语义概念)

  • 核心发现:预训练多样性从25%提升到100%+X-emb时,人类数据带来的迁移增益显著增加;低多样性预训练甚至出现负迁移