返回列表 VLA / Vision-Language-Action 每日论文卡
VAMOS: A Hierarchical Vision-Language-Action Model for Capability-Modulated and Steerable Navigation
提出 VAMOS,一种分层视觉-语言-动作(VLA)模型,用于实现能力调制和可操控的机器人导航

论文详情

VAMOS: A Hierarchical Vision-Language-Action Model for Capability-Modulated and Steerable Navigation

2025-10-23 · 原文 · 翻译 · 2510.20818

提出 VAMOS,一种分层视觉-语言-动作(VLA)模型,用于实现能力调制和可操控的机器人导航 核心挑战:如何有效利用大规模异构数据集(不同机器人 embodiment 的数据)进行通用导航学习,同时适应特定机器人的物理约束 通过解耦高层语义规划(通用)与低层物理可行性(专用),实现跨 embodiment 迁移和自然语言操控

5 分钟读完 6 张阅读卡 University of Washington(华盛顿大学)
一眼看懂 封面预览

提出 VAMOS,一种分层视觉-语言-动作(VLA)模型,用于实现能力调制和可操控的机器人导航

  • 提出 VAMOS,一种分层视觉-语言-动作(VLA)模型,用于实现能力调制和可操控的机器人导航
  • 核心挑战:如何有效利用大规模异构数据集(不同机器人 embodiment 的数据)进行通用导航学习,同时适应特定机器人的物理约束
  • 通过解耦高层语义规划(通用)与低层物理可行性(专用),实现跨 embodiment 迁移和自然语言操控
Card 01 研究单位

研究单位

  • University of Washington(华盛顿大学)
  • DEVCOM ARL(美国陆军研究实验室)
Card 02 论文概述

论文概述

  • 提出 VAMOS,一种分层视觉-语言-动作(VLA)模型,用于实现能力调制和可操控的机器人导航
  • 核心挑战:如何有效利用大规模异构数据集(不同机器人 embodiment 的数据)进行通用导航学习,同时适应特定机器人的物理约束
  • 通过解耦高层语义规划(通用)与低层物理可行性(专用),实现跨 embodiment 迁移和自然语言操控
Card 03 核心贡献

核心贡献

  • 提出分层 VLA 架构:高层 VLM 规划器 + 低层 affordance 模型,通过 2D 像素路径作为统一接口
  • 实现跨 embodiment 导航:同一高层规划器可部署到腿式(Spot)和轮式(Hound)机器人,仅替换轻量级 affordance 模型
  • 支持自然语言操控:可通过文本偏好实时调整导航路径(如"走右边""避开楼梯")
  • 在真实世界室内外复杂环境中达到 SOTA 性能,平均成功率 90%,显著优于模块化基线和端到端基线
  • 验证异构数据联合训练的优势:数据混合训练优于单一数据集训练
Card 04 方法描述

方法描述

  • 高层规划器:基于 PaliGemma 2 3B VLM,使用 LoRA 微调,输入 RGB 图像和文本编码的目标坐标,输出 2D 像素空间候选路径
  • 低层 affordance 模型:轻量级 MLP,在仿真中通过强化学习训练,评估路径的可通行性(traversability),将像素路径投影到 3D 地面后重新排序
  • 关键创新:2D 路径作为通用接口,既保留 VLM 的泛化能力,又允许 affordance 模型进行 embodiment-specific 的调制
  • 训练数据:混合 SCANDTartanDrive 2CODa 和 Spot 采集数据,共 29.8 小时,514K 样本
Card 05 数据集与资源

数据集与资源

  • 训练数据集:SCAND(19.5h,50%)、CODa(7.8h,25%)、TartanDrive 2(2.2h,100%)、Spot 采集数据(0.3h,100%)
  • 模型规模:PaliGemma 2 3B,224×224 分辨率,LoRA rank=16
  • 训练资源:8×Nvidia L40 GPU,训练约 5 小时;可在 RTX 4090 上微调
  • 仿真环境:Isaac Lab,用于训练 affordance 函数
Card 06 评估与结果

评估与结果

  • 评估环境:6 个真实世界场景(Hallway、Atrium、Lab、Campus、Forest、Down Ramp),涵盖室内外、平坦/复杂地形
  • 主要指标:成功率(SR)、平均干预次数(NI)、超时次数(T)
  • 关键结果

- VAMOS 平均成功率 90%,对比 Modular Stack(53%)、ViPlanner(67%)、NoMaD(27%)、NaVILA(10%)

- 跨 embodiment 实验:Hound 机器人成功率从 60%(无调制)提升至 90%(有调制),Spot 保持 100%

- 消融实验:异构数据混合训练比单一数据集训练的 L2 预测误差更低

- 自然语言操控:20/20 偏好对齐率