GeoAware-VLA: Implicit Geometry Aware Vision-Language-Action Model - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

提出 GeoAware-VLA，一种增强视觉-语言-动作模型对未见过相机视角泛化能力的方法

Card 01 研究单位

研究单位

Mohamed bin Zayed University of Artificial Intelligence（穆罕默德·本·扎耶德人工智能大学），机器人系，阿联酋阿布扎比

Card 02 论文概述

Card 03 核心贡献

提出将预训练几何基础模型 VGGT 作为冻结视觉编码器，通过轻量级可训练投影层适配到策略解码器
在 LIBERO 和 CALVIN 基准上实现显著的零样本视角泛化提升：LIBERO 未见过视角成功率平均提升 35 个百分点，CALVIN 提升 11 个百分点
证明方法对动作解码器选择具有鲁棒性，在连续动作空间（MLP Head）和离散动作空间（VQ-BeT Head）均有效
成功将模拟环境中的性能增益迁移到真实机器人平台

Card 04 方法描述

几何感知视觉编码器：使用冻结的 VGGT（Visual Geometry Grounded Transformer）提取多尺度几何特征，替代传统可训练视觉编码器
多尺度特征投影：从 VGGT 的 24 层中选择 4 个均匀分布的中间层，通过 1D 卷积网络、自适应平均池化和 MLP 将特征映射到策略表示空间
策略架构：基于 BAKU 的 GPT 风格解码器-仅 Transformer，处理视觉、语言和本体感觉三种模态的嵌入
双动作头设计：支持 MLP Head（确定性连续动作）和 VQ-BeT Head（向量量化行为变换器，处理多模态动作分布）

Card 05 数据集与资源

Card 06 评估与结果

- LIBERO 未见过视角平均成功率：GeoAware BAKU 82.6% vs BAKU 37.9% vs Evo-0 BAKU 66.6%

- CALVIN 未见过视角平均成功率：GeoAware VQ-BeT 94.8% vs VQ-BeT 83.8%

- 真实世界：GeoAware BAKU 在 5 个任务上均优于 BAKU 基线

- 特征分析：GeoAware-VLA 的跨视角余弦相似度达 0.91，显著高于 BAKU（0.77）和 Evo-0（0.69）