提出Spatial-Aware VLA Pretraining新范式，通过大规模人类演示视频实现2D视觉感知与3D物理动作的显式对齐

论文详情

Spatial-Aware VLA Pretraining through Visual-Physical Alignment from Human Videos

2025-12-15 · 原文 · 翻译 · 2512.13080

提出Spatial-Aware VLA Pretraining新范式，通过大规模人类演示视频实现2D视觉感知与3D物理动作的显式对齐解决现有VLA模型依赖2D视觉输入却在3D物理环境中执行动作所导致的感知-动作 grounding 差距问题构建Hand3D数据集，从人类视频中提取3D视觉标注和3D动作标注，为VLA预训练提供空间感知监督信号

5 分钟读完 6 张阅读卡北京大学（第一作者单位）

一眼看懂封面预览

提出Spatial-Aware VLA Pretraining新范式，通过大规模人类演示视频实现2D视觉感知与3D物理动作的显式对齐

提出Spatial-Aware VLA Pretraining新范式，通过大规模人类演示视频实现2D视觉感知与3D物理动作的显式对齐
解决现有VLA模型依赖2D视觉输入却在3D物理环境中执行动作所导致的感知-动作 grounding 差距问题
构建Hand3D数据集，从人类视频中提取3D视觉标注和3D动作标注，为VLA预训练提供空间感知监督信号

Card 01 研究单位

研究单位

北京大学（第一作者单位）
中国人民大学
BeingBeyond（企业合作单位）

Card 02 论文概述

论文概述

提出Spatial-Aware VLA Pretraining新范式，通过大规模人类演示视频实现2D视觉感知与3D物理动作的显式对齐
解决现有VLA模型依赖2D视觉输入却在3D物理环境中执行动作所导致的感知-动作 grounding 差距问题
构建Hand3D数据集，从人类视频中提取3D视觉标注和3D动作标注，为VLA预训练提供空间感知监督信号

Card 03 核心贡献

核心贡献

提出Spatial-Aware VLA Pretraining范式，使模型在机器人策略学习前即获得3D空间理解能力
构建Hand3D数据集：包含30万条3D视觉标注（Hand3D-visual）和100万条3D动作标注（Hand3D-action）
设计VIPA-VLA双编码器架构，融合语义视觉编码器与3D空间编码器
实现两阶段预训练策略：3D-Visual预训练对齐视觉-空间特征，3D-Action预训练学习物理 grounded 动作先验
在仿真和真实机器人任务上验证，无需机器人数据预训练即可达到或超越现有SOTA方法

Card 04 方法描述

方法描述

双编码器架构：语义视觉编码器（基于InternVL3.5-2B）+ 3D视觉编码器（Cut3R），通过交叉注意力融合层整合特征
视觉-物理对齐：利用人类操作视频中的手-物交互关系，提取点云估计、物体定位、手部姿态等3D信息
尺度校准：通过MANO手部关节绝对位置与点云相对深度匹配，统一物理空间尺度
动作离散化：将3D腕部轨迹坐标均匀分箱为1024个运动token，扩展LLM词表
后训练：冻结视觉编码器，采用流匹配（Flow Matching）扩散Transformer输出机器人动作块

Card 05 数据集与资源

数据集与资源

Hand3D-visual：约30万条VQA风格标注，涵盖空间关系、任务完成、手部移动、相机移动四类任务
Hand3D-action：约100万条视频-指令-运动对，包含指令运动生成、上下文运动预测、运动翻译三类任务
数据来源：Arctic、HOI4D、FPHA、H2O、OAKINK2、TACO、Dex-YCB、EgoDex、Taste-Rob等9个数据集
模型规模：基于InternVL3.5-2B初始化
训练资源：8×NVIDIA A800 GPU，Stage 1约6小时，Stage 2约20小时，Stage 3约5-40小时

Card 06 评估与结果

评估与结果

仿真环境：LIBERO（单视角/双视角）和RoboCasa（三视角，每任务50条演示）
真实机器人：7-DoF Franka Research 3机械臂 + 6-DoF Inspire灵巧手 + 双RealSense L515相机
LIBERO单视角：平均成功率92.4%，超越GR00T N1.5（92.1%）等使用机器人预训练的模型
LIBERO双视角：平均成功率96.8%，接近π₀.₅（96.9%）和UniVLA（95.5%）
RoboCasa：平均成功率45.8%，在Doors/Drawers类别提升+9.9%，显著优于π₀.₅（41.4%）
真实任务：Wipe-Board子任务成功率83%（对比GR00T N1.5的57%），未见环境泛化能力显著优于基线