返回列表 VLA / Vision-Language-Action 每日论文卡
Spatial-Aware VLA Pretraining through Visual-Physical Alignment from Human Videos
提出Spatial-Aware VLA Pretraining新范式,通过大规模人类演示视频实现2D视觉感知与3D物理动作的显式对齐

论文详情

Spatial-Aware VLA Pretraining through Visual-Physical Alignment from Human Videos

2025-12-15 · 原文 · 翻译 · 2512.13080

提出Spatial-Aware VLA Pretraining新范式,通过大规模人类演示视频实现2D视觉感知与3D物理动作的显式对齐 解决现有VLA模型依赖2D视觉输入却在3D物理环境中执行动作所导致的感知-动作 grounding 差距问题 构建Hand3D数据集,从人类视频中提取3D视觉标注和3D动作标注,为VLA预训练提供空间感知监督信号

5 分钟读完 6 张阅读卡 北京大学(第一作者单位)
一眼看懂 封面预览

提出Spatial-Aware VLA Pretraining新范式,通过大规模人类演示视频实现2D视觉感知与3D物理动作的显式对齐

  • 提出Spatial-Aware VLA Pretraining新范式,通过大规模人类演示视频实现2D视觉感知与3D物理动作的显式对齐
  • 解决现有VLA模型依赖2D视觉输入却在3D物理环境中执行动作所导致的感知-动作 grounding 差距问题
  • 构建Hand3D数据集,从人类视频中提取3D视觉标注和3D动作标注,为VLA预训练提供空间感知监督信号
Card 01 研究单位

研究单位

  • 北京大学(第一作者单位)
  • 中国人民大学
  • BeingBeyond(企业合作单位)
Card 02 论文概述

论文概述

  • 提出Spatial-Aware VLA Pretraining新范式,通过大规模人类演示视频实现2D视觉感知与3D物理动作的显式对齐
  • 解决现有VLA模型依赖2D视觉输入却在3D物理环境中执行动作所导致的感知-动作 grounding 差距问题
  • 构建Hand3D数据集,从人类视频中提取3D视觉标注和3D动作标注,为VLA预训练提供空间感知监督信号
Card 03 核心贡献

核心贡献

  • 提出Spatial-Aware VLA Pretraining范式,使模型在机器人策略学习前即获得3D空间理解能力
  • 构建Hand3D数据集:包含30万条3D视觉标注(Hand3D-visual)和100万条3D动作标注(Hand3D-action)
  • 设计VIPA-VLA双编码器架构,融合语义视觉编码器与3D空间编码器
  • 实现两阶段预训练策略:3D-Visual预训练对齐视觉-空间特征,3D-Action预训练学习物理 grounded 动作先验
  • 在仿真和真实机器人任务上验证,无需机器人数据预训练即可达到或超越现有SOTA方法
Card 04 方法描述

方法描述

  • 双编码器架构:语义视觉编码器(基于InternVL3.5-2B)+ 3D视觉编码器(Cut3R),通过交叉注意力融合层整合特征
  • 视觉-物理对齐:利用人类操作视频中的手-物交互关系,提取点云估计、物体定位、手部姿态等3D信息
  • 尺度校准:通过MANO手部关节绝对位置与点云相对深度匹配,统一物理空间尺度
  • 动作离散化:将3D腕部轨迹坐标均匀分箱为1024个运动token,扩展LLM词表
  • 后训练:冻结视觉编码器,采用流匹配(Flow Matching)扩散Transformer输出机器人动作块
Card 05 数据集与资源

数据集与资源

  • Hand3D-visual:约30万条VQA风格标注,涵盖空间关系、任务完成、手部移动、相机移动四类任务
  • Hand3D-action:约100万条视频-指令-运动对,包含指令运动生成、上下文运动预测、运动翻译三类任务
  • 数据来源:Arctic、HOI4D、FPHA、H2O、OAKINK2、TACO、Dex-YCB、EgoDex、Taste-Rob等9个数据集
  • 模型规模:基于InternVL3.5-2B初始化
  • 训练资源:8×NVIDIA A800 GPU,Stage 1约6小时,Stage 2约20小时,Stage 3约5-40小时
Card 06 评估与结果

评估与结果

  • 仿真环境:LIBERO(单视角/双视角)和RoboCasa(三视角,每任务50条演示)
  • 真实机器人:7-DoF Franka Research 3机械臂 + 6-DoF Inspire灵巧手 + 双RealSense L515相机
  • LIBERO单视角:平均成功率92.4%,超越GR00T N1.5(92.1%)等使用机器人预训练的模型
  • LIBERO双视角:平均成功率96.8%,接近π₀.₅(96.9%)和UniVLA(95.5%)
  • RoboCasa:平均成功率45.8%,在Doors/Drawers类别提升+9.9%,显著优于π₀.₅(41.4%)
  • 真实任务:Wipe-Board子任务成功率83%(对比GR00T N1.5的57%),未见环境泛化能力显著优于基线