返回列表 VLA / Vision-Language-Action 每日论文卡
MUVLA: Learning to Explore Object Navigation via Map Understanding
提出 MUVLA(Map Understanding Vision-Language-Action)模型,用于目标导航任务

论文详情

MUVLA: Learning to Explore Object Navigation via Map Understanding

2025-09-30 · 原文 · 翻译 · 2509.25966

提出 MUVLA(Map Understanding Vision-Language-Action)模型,用于目标导航任务 核心目标:通过语义地图抽象化将历史轨迹信息统一为结构化表示,解决从混合质量演示数据中学习有效探索策略的问题 区别于 VLN 任务("跟随指令"),目标导航需要智能体"自主探索",难以定义最优动作的监督信号

5 分钟读完 6 张阅读卡 Peilong Han - 天津大学(第一作者,同等贡献)
一眼看懂 封面预览

提出 MUVLA(Map Understanding Vision-Language-Action)模型,用于目标导航任务

  • 提出 MUVLA(Map Understanding Vision-Language-Action)模型,用于目标导航任务
  • 核心目标:通过语义地图抽象化将历史轨迹信息统一为结构化表示,解决从混合质量演示数据中学习有效探索策略的问题
  • 区别于 VLN 任务("跟随指令"),目标导航需要智能体"自主探索",难以定义最优动作的监督信号
Card 01 研究单位

研究单位

  • Peilong Han - 天津大学(第一作者,同等贡献)
  • Fan Jia - Dexmal(同等贡献)
  • Min Zhang - 天津大学
  • Yutao Qiu - 研究机构待确认
  • Hongyao Tang - 天津大学
  • Yan Zheng - 天津大学
  • Tiancai Wang - Dexmal
  • Jianye Hao - 天津大学
  • 注:本研究在 Dexmal 实习期间完成
Card 02 论文概述

论文概述

  • 提出 MUVLA(Map Understanding Vision-Language-Action)模型,用于目标导航任务
  • 核心目标:通过语义地图抽象化将历史轨迹信息统一为结构化表示,解决从混合质量演示数据中学习有效探索策略的问题
  • 区别于 VLN 任务("跟随指令"),目标导航需要智能体"自主探索",难以定义最优动作的监督信号
Card 03 核心贡献

核心贡献

  • 提出统一的语义地图抽象方法,将历史观测编码为紧凑一致的空间表示,并利用奖励信号深入理解数据质量
  • 引入三阶段训练pipeline:地图理解学习 → 行为克隆 → 奖励增强,依次优化模型能力
  • HM3DGibson 基准数据集上实现最先进的性能,即使在异构质量演示数据上也能学习有效的探索策略
Card 04 方法描述

方法描述

  • 模型架构:包含地图编码器、观测编码器、跨模态融合模块(使用交叉注意力)、动作预测头和奖励预测头
  • 语义地图构建:K×M×M 张量(K=C+2通道),包含障碍物、可导航区域和语义类别信息;动态旋转地图使智能体朝向上方
  • 三阶段训练

- 阶段1(地图理解):使用 1.5M 地图-语言对,学习将语义地图嵌入统一表示空间,包含规则生成的地图描述和 LLM 生成的思维链推理

- 阶段2(行为克隆):使用 0.73M 样本,冻结地图编码器和观测编码器,训练策略预测动作序列

- 阶段3(奖励增强):使用 0.54M 样本,引入奖励头预测短期累积回报(RTG),采用 expectile regression 目标函数

Card 05 数据集与资源

数据集与资源

  • 训练数据:HM3D 数据集的 75 个训练场景
  • 评估数据:HM3D 验证集的 20 个场景,以及 Gibson 验证集的 5 个未见场景(1000 episodes)
  • 数据规模:阶段1使用 1.5M 地图-语言对,阶段2使用 0.73M 样本,阶段3使用 0.54M 样本
  • 评估指标:Success Rate(SR)和 Success weighted by Path Length(SPL)
Card 06 评估与结果

评估与结果

  • HM3D 验证集:MUVLA 达到 46.7% 成功率21.0 SPL,比 MapNav(34.6% SR)提高 +12.1%
  • Gibson 零样本测试:达到 71.0% 成功率41.1 SPL,无需任何微调
  • 消融实验

- 移除地图输入:SR 从 46.7% 降至 39.9%

- 移除阶段1地图描述:SR 降至 39.6%(下降约15%)

- 移除阶段3奖励增强:SR 从 46.7% 降至 42.8%

- 完整三阶段训练效果最佳,验证了各阶段的互补性