研究视觉-语言-动作（VLA）模型中人类到机器人迁移能力的涌现现象，探索如何利用人类视频数据提升机器人策略的泛化能力

论文详情

Emergence of Human to Robot Transfer in Vision-Language-Action Models

2025-12-27 · 原文 · 翻译 · 2512.22414

研究视觉-语言-动作（VLA）模型中人类到机器人迁移能力的涌现现象，探索如何利用人类视频数据提升机器人策略的泛化能力提出简单的协同训练（co-training）方法，将人类视频视为另一种机器人 embodiment 进行训练，无需显式对齐解决的核心问题：如何有效利用大规模、易获取的人类视频数据来扩展机器人学习的数据来源，克服传统方法需要手动工程对齐的局限

5 分钟读完 6 张阅读卡 Physical Intelligence（主要研究机构）

一眼看懂封面预览

研究视觉-语言-动作（VLA）模型中人类到机器人迁移能力的涌现现象，探索如何利用人类视频数据提升机器人策略的泛化能力

研究视觉-语言-动作（VLA）模型中人类到机器人迁移能力的涌现现象，探索如何利用人类视频数据提升机器人策略的泛化能力
提出简单的协同训练（co-training）方法，将人类视频视为另一种机器人 embodiment 进行训练，无需显式对齐
解决的核心问题：如何有效利用大规模、易获取的人类视频数据来扩展机器人学习的数据来源，克服传统方法需要手动工程对齐的局限

Card 01 研究单位

研究单位

Physical Intelligence（主要研究机构）
Georgia Institute of Technology（佐治亚理工学院）

Card 02 论文概述

论文概述

研究视觉-语言-动作（VLA）模型中人类到机器人迁移能力的涌现现象，探索如何利用人类视频数据提升机器人策略的泛化能力
提出简单的协同训练（co-training）方法，将人类视频视为另一种机器人 embodiment 进行训练，无需显式对齐
解决的核心问题：如何有效利用大规模、易获取的人类视频数据来扩展机器人学习的数据来源，克服传统方法需要手动工程对齐的局限

Card 03 核心贡献

核心贡献

发现人类到机器人迁移是VLA预训练的涌现特性——当预训练数据在场景、任务和机器人形态上足够多样化时，迁移能力自然出现
提出π₀.₅ + ego 训练配方：基于π₀.₅模型，通过协同训练人类数据和机器人数据，在未见场景、新物体类别和新任务语义上实现近2倍性能提升
揭示多样化预训练产生形态无关表征（embodiment-agnostic representations）——通过t-SNE分析证明，预训练多样性增加时，人类和机器人数据的潜在表征自然对齐
建立人类到机器人迁移基准测试，涵盖场景迁移（Spice、Dresser）、物体迁移（Bussing）和任务迁移（Sort Eggs）三个维度
证明人类数据价值可与跨形态机器人数据（cross-embodiment robot data）相媲美，为大规模人类数据收集提供理论基础

Card 04 方法描述

方法描述

数据收集：使用头戴相机+双腕部相机的轻量化设备采集人类第一视角视频，通过视觉SLAM重建6D头部运动，提取17个3D手部关键点
动作空间对齐：将人类手部关键点转换为相对6-DoF末端执行器姿态，与机器人动作表示对齐（忽略夹爪开合）
训练目标：同时使用（1）基于流的连续动作预测和（2）高层子任务语言预测，与人类和机器人数据共享相同目标
微调策略：50-50比例混合人类数据（用于泛化任务）和最近邻机器人任务数据进行协同微调

Card 05 数据集与资源

数据集与资源

人类数据集：约14小时人类视频（Bussing 3小时、Spice 3小时、Dresser 3小时、Sort Eggs 5小时）
基础模型：π₀.₅（3B参数VLA模型，基于PaliGemma VLM架构）
预训练数据：包含大规模多样化机器人遥操作数据，涵盖多种场景、任务和机器人形态（ARX、mobile ARX等）
对比实验：使用不同预训练程度初始化（0%、25%、50%、75%、100%、100%+X-emb跨形态数据）

Card 06 评估与结果

评估与结果

评估基准：4个真实机器人任务，测试场景/物体/任务三个维度的泛化
关键结果：

- Spice任务：32% → 71%（场景迁移）

- Dresser任务：25% → 50%（场景迁移）

- Bussing任务：53% → 63%（物体迁移）

- Sort Eggs任务：57% → 78%（任务迁移，新增排序语义概念）

核心发现：预训练多样性从25%提升到100%+X-emb时，人类数据带来的迁移增益显著增加；低多样性预训练甚至出现负迁移