GLaD: Geometric Latent Distillation for Vision-Language-Action Models - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

针对当前视觉-语言-动作 (VLA) 模型主要依赖2D RGB信息、缺乏三维几何理解能力的问题，提出GLaD 框架，旨在通过知识蒸馏注入几何…

Card 01 研究单位

研究单位

Card 02 论文概述

针对当前视觉-语言-动作 (VLA) 模型主要依赖2D RGB信息、缺乏三维几何理解 能力的问题，提出GLaD 框架，旨在通过知识蒸馏注入几何先验，增强模型的空间推理和策略泛化能力。
目标是解决机器人精确操作中因缺乏对深度、物体姿态和空间关系等信息的感知，而导致的视觉注意偏差和任务执行失败问题。

Card 03 核心贡献

提出了 GLaD，一个基于几何隐式知识蒸馏的VLA框架，首次通过将几何特征蒸馏到LLM隐藏状态（而非仅视觉编码器）的方式，将三维几何理解深度整合到驱动动作预测的多模态表征中。
识别并论证了现有VLA模型因依赖CLIP/SigLIP等2D视觉编码器而缺乏几何理解这一关键限制，并通过实验证明注入几何先验能显著提升场景理解和策略泛化。
在标准LIBERO基准上取得了94.1% 的平均成功率，超越了使用相同预训练数据的基线模型 UniVLA (92.5%)。
在鲁棒性基准LIBERO-PRO上展现出对物体外观扰动（颜色、纹理、大小变化）更强的鲁棒性，验证了几何感知预训练能帮助模型学习内在的几何特征和操作可能性，而非依赖浅层视觉模式。

Card 04 方法描述

核心技术：采用两阶段训练策略。
第一阶段（预训练）：在Bridge数据集上，使用冻结的、能推理深度、点云和相机参数的视觉几何基础变换器 (VGGT) 作为教师网络。通过一个特征对齐网络，将大语言模型（LLaMA-2-7B）中视觉标记对应的隐藏状态与VGGT提取的几何特征进行对齐（使用MSE损失）。
第二阶段（后训练/微调）：在LIBERO等下游任务上，使用LoRA微调VLA骨干网络，并训练动作解码器。
关键创新：“隐式对齐”——将几何知识蒸馏到LLM的隐藏状态，而非视觉编码器的输出，确保几何信息与语言/任务信息在更高层次上深度融合，从而驱动最终的动作预测。

Card 05 数据集与资源

使用的数据集：Bridge数据集（大规模预训练），LIBERO与LIBERO-PRO基准（评估）。
模型规模与参数：以UniVLA为架构基础，视觉编码器为Prismatic（DINOv2 + SigLIP），LLM骨干为LLaMA-2-7B，教师网络为冻结的VGGT。
训练资源：使用 8 × A100 GPU 进行预训练（约9天，45个周期）和后训练。

Card 06 评估与结果

- 在标准LIBERO上，GLaD取得94.1% 的平均成功率，尤其在物体操作任务LIBERO-OBJECT上达到97.4%（所有方法中最高）。

- 在LIBERO-PRO上，GLaD对物体外观扰动的鲁棒性显著优于UniVLA，例如在LIBERO-GOAL套件下成功率从62% 提升至81%，在特定任务上提升高达60个百分点。

- 消融实验验证了使用VGGT几何编码器、在LLM最终层进行特征对齐以及隐式融合策略的有效性。