一眼看懂
封面预览
针对当前视觉-语言-动作 (VLA) 模型主要依赖2D RGB信息、缺乏三维几何理解 能力的问题,提出GLaD 框架,旨在通过知识蒸馏注入几何…
- 针对当前视觉-语言-动作 (VLA) 模型主要依赖2D RGB信息、缺乏三维几何理解 能力的问题,提出GLaD 框架,旨在通过知识蒸馏注入几何…
- 目标是解决机器人精确操作中因缺乏对深度、物体姿态和空间关系等信息的感知,而导致的视觉注意偏差和任务执行失败问题。
- 提出了 GLaD,一个基于几何隐式知识蒸馏的VLA框架,首次通过将几何特征蒸馏到LLM隐藏状态(而非仅视觉编码器)的方式,将三维几何理解深度整…
Card 01
研究单位
研究单位
- 穆罕默德·本·扎耶德人工智能大学 (MBZUAI)
- 伊利诺伊大学芝加哥分校 (University of Illinois Chicago)
Card 02
论文概述
论文概述
- 针对当前视觉-语言-动作 (VLA) 模型主要依赖2D RGB信息、缺乏三维几何理解 能力的问题,提出GLaD 框架,旨在通过知识蒸馏注入几何先验,增强模型的空间推理和策略泛化能力。
- 目标是解决机器人精确操作中因缺乏对深度、物体姿态和空间关系等信息的感知,而导致的视觉注意偏差和任务执行失败问题。
Card 03
核心贡献
核心贡献
- 提出了 GLaD,一个基于几何隐式知识蒸馏的VLA框架,首次通过将几何特征蒸馏到LLM隐藏状态(而非仅视觉编码器)的方式,将三维几何理解深度整合到驱动动作预测的多模态表征中。
- 识别并论证了现有VLA模型因依赖CLIP/SigLIP等2D视觉编码器而缺乏几何理解这一关键限制,并通过实验证明注入几何先验能显著提升场景理解和策略泛化。
- 在标准LIBERO基准上取得了94.1% 的平均成功率,超越了使用相同预训练数据的基线模型 UniVLA (92.5%)。
- 在鲁棒性基准LIBERO-PRO上展现出对物体外观扰动(颜色、纹理、大小变化)更强的鲁棒性,验证了几何感知预训练能帮助模型学习内在的几何特征和操作可能性,而非依赖浅层视觉模式。
Card 04
方法描述
方法描述
- 核心技术:采用两阶段训练策略。
- 第一阶段(预训练):在Bridge数据集上,使用冻结的、能推理深度、点云和相机参数的视觉几何基础变换器 (VGGT) 作为教师网络。通过一个特征对齐网络,将大语言模型(LLaMA-2-7B)中视觉标记对应的隐藏状态与VGGT提取的几何特征进行对齐(使用MSE损失)。
- 第二阶段(后训练/微调):在LIBERO等下游任务上,使用LoRA微调VLA骨干网络,并训练动作解码器。
- 关键创新:“隐式对齐”——将几何知识蒸馏到LLM的隐藏状态,而非视觉编码器的输出,确保几何信息与语言/任务信息在更高层次上深度融合,从而驱动最终的动作预测。
Card 05
数据集与资源
数据集与资源
- 使用的数据集:Bridge数据集(大规模预训练),LIBERO与LIBERO-PRO基准(评估)。
- 模型规模与参数:以UniVLA为架构基础,视觉编码器为Prismatic(DINOv2 + SigLIP),LLM骨干为LLaMA-2-7B,教师网络为冻结的VGGT。
- 训练资源:使用 8 × A100 GPU 进行预训练(约9天,45个周期)和后训练。
Card 06
评估与结果
评估与结果
- 评估环境与基准:LIBERO标准基准(4个任务套件)和LIBERO-PRO鲁棒性基准。
- 主要评估指标:任务平均成功率。
- 关键实验结果:
- 在标准LIBERO上,GLaD取得94.1% 的平均成功率,尤其在物体操作任务LIBERO-OBJECT上达到97.4%(所有方法中最高)。
- 在LIBERO-PRO上,GLaD对物体外观扰动的鲁棒性显著优于UniVLA,例如在LIBERO-GOAL套件下成功率从62% 提升至81%,在特定任务上提升高达60个百分点。
- 消融实验验证了使用VGGT几何编码器、在LLM最终层进行特征对齐以及隐式融合策略的有效性。