一眼看懂
封面预览
提出Spatial-Aware VLA Pretraining新范式,通过大规模人类演示视频实现2D视觉感知与3D物理动作的显式对齐
- 提出Spatial-Aware VLA Pretraining新范式,通过大规模人类演示视频实现2D视觉感知与3D物理动作的显式对齐
- 解决现有VLA模型依赖2D视觉输入却在3D物理环境中执行动作所导致的感知-动作 grounding 差距问题
- 构建Hand3D数据集,从人类视频中提取3D视觉标注和3D动作标注,为VLA预训练提供空间感知监督信号
Card 01
研究单位
研究单位
- 北京大学(第一作者单位)
- 中国人民大学
- BeingBeyond(企业合作单位)
Card 02
论文概述
论文概述
- 提出Spatial-Aware VLA Pretraining新范式,通过大规模人类演示视频实现2D视觉感知与3D物理动作的显式对齐
- 解决现有VLA模型依赖2D视觉输入却在3D物理环境中执行动作所导致的感知-动作 grounding 差距问题
- 构建Hand3D数据集,从人类视频中提取3D视觉标注和3D动作标注,为VLA预训练提供空间感知监督信号
Card 03
核心贡献
核心贡献
- 提出Spatial-Aware VLA Pretraining范式,使模型在机器人策略学习前即获得3D空间理解能力
- 构建Hand3D数据集:包含30万条3D视觉标注(Hand3D-visual)和100万条3D动作标注(Hand3D-action)
- 设计VIPA-VLA双编码器架构,融合语义视觉编码器与3D空间编码器
- 实现两阶段预训练策略:3D-Visual预训练对齐视觉-空间特征,3D-Action预训练学习物理 grounded 动作先验
- 在仿真和真实机器人任务上验证,无需机器人数据预训练即可达到或超越现有SOTA方法
Card 04
方法描述
方法描述
- 双编码器架构:语义视觉编码器(基于InternVL3.5-2B)+ 3D视觉编码器(Cut3R),通过交叉注意力融合层整合特征
- 视觉-物理对齐:利用人类操作视频中的手-物交互关系,提取点云估计、物体定位、手部姿态等3D信息
- 尺度校准:通过MANO手部关节绝对位置与点云相对深度匹配,统一物理空间尺度
- 动作离散化:将3D腕部轨迹坐标均匀分箱为1024个运动token,扩展LLM词表
- 后训练:冻结视觉编码器,采用流匹配(Flow Matching)扩散Transformer输出机器人动作块
Card 05
数据集与资源
数据集与资源
- Hand3D-visual:约30万条VQA风格标注,涵盖空间关系、任务完成、手部移动、相机移动四类任务
- Hand3D-action:约100万条视频-指令-运动对,包含指令运动生成、上下文运动预测、运动翻译三类任务
- 数据来源:Arctic、HOI4D、FPHA、H2O、OAKINK2、TACO、Dex-YCB、EgoDex、Taste-Rob等9个数据集
- 模型规模:基于InternVL3.5-2B初始化
- 训练资源:8×NVIDIA A800 GPU,Stage 1约6小时,Stage 2约20小时,Stage 3约5-40小时
Card 06
评估与结果
评估与结果
- 仿真环境:LIBERO(单视角/双视角)和RoboCasa(三视角,每任务50条演示)
- 真实机器人:7-DoF Franka Research 3机械臂 + 6-DoF Inspire灵巧手 + 双RealSense L515相机
- LIBERO单视角:平均成功率92.4%,超越GR00T N1.5(92.1%)等使用机器人预训练的模型
- LIBERO双视角:平均成功率96.8%,接近π₀.₅(96.9%)和UniVLA(95.5%)
- RoboCasa:平均成功率45.8%,在Doors/Drawers类别提升+9.9%,显著优于π₀.₅(41.4%)
- 真实任务:Wipe-Board子任务成功率83%(对比GR00T N1.5的57%),未见环境泛化能力显著优于基线