VAMOS: A Hierarchical Vision-Language-Action Model for Capability-Modulated and Steerable Navigation

一眼看懂封面预览

提出 VAMOS，一种分层视觉-语言-动作（VLA）模型，用于实现能力调制和可操控的机器人导航

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

Card 04 方法描述

高层规划器：基于 PaliGemma 2 3B VLM，使用 LoRA 微调，输入 RGB 图像和文本编码的目标坐标，输出 2D 像素空间候选路径
低层 affordance 模型：轻量级 MLP，在仿真中通过强化学习训练，评估路径的可通行性（traversability），将像素路径投影到 3D 地面后重新排序
关键创新：2D 路径作为通用接口，既保留 VLM 的泛化能力，又允许 affordance 模型进行 embodiment-specific 的调制
训练数据：混合 SCAND、TartanDrive 2、CODa 和 Spot 采集数据，共 29.8 小时，514K 样本

Card 05 数据集与资源

训练数据集：SCAND（19.5h，50%）、CODa（7.8h，25%）、TartanDrive 2（2.2h，100%）、Spot 采集数据（0.3h，100%）
模型规模：PaliGemma 2 3B，224×224 分辨率，LoRA rank=16
训练资源：8×Nvidia L40 GPU，训练约 5 小时；可在 RTX 4090 上微调
仿真环境：Isaac Lab，用于训练 affordance 函数

Card 06 评估与结果

- VAMOS 平均成功率 90%，对比 Modular Stack（53%）、ViPlanner（67%）、NoMaD（27%）、NaVILA（10%）

- 跨 embodiment 实验：Hound 机器人成功率从 60%（无调制）提升至 90%（有调制），Spot 保持 100%

- 消融实验：异构数据混合训练比单一数据集训练的 L2 预测误差更低

- 自然语言操控：20/20 偏好对齐率