提出 MUVLA（Map Understanding Vision-Language-Action）模型，用于目标导航任务

论文详情

MUVLA: Learning to Explore Object Navigation via Map Understanding

2025-09-30 · 原文 · 翻译 · 2509.25966

提出 MUVLA（Map Understanding Vision-Language-Action）模型，用于目标导航任务核心目标：通过语义地图抽象化将历史轨迹信息统一为结构化表示，解决从混合质量演示数据中学习有效探索策略的问题区别于 VLN 任务（"跟随指令"），目标导航需要智能体"自主探索"，难以定义最优动作的监督信号

5 分钟读完 6 张阅读卡 Peilong Han - 天津大学（第一作者，同等贡献）

一眼看懂封面预览

提出 MUVLA（Map Understanding Vision-Language-Action）模型，用于目标导航任务

提出 MUVLA（Map Understanding Vision-Language-Action）模型，用于目标导航任务
核心目标：通过语义地图抽象化将历史轨迹信息统一为结构化表示，解决从混合质量演示数据中学习有效探索策略的问题
区别于 VLN 任务（"跟随指令"），目标导航需要智能体"自主探索"，难以定义最优动作的监督信号

Card 01 研究单位

研究单位

Peilong Han - 天津大学（第一作者，同等贡献）
Fan Jia - Dexmal（同等贡献）
Min Zhang - 天津大学
Yutao Qiu - 研究机构待确认
Hongyao Tang - 天津大学
Yan Zheng - 天津大学
Tiancai Wang - Dexmal
Jianye Hao - 天津大学
注：本研究在 Dexmal 实习期间完成

Card 02 论文概述

论文概述

提出 MUVLA（Map Understanding Vision-Language-Action）模型，用于目标导航任务
核心目标：通过语义地图抽象化将历史轨迹信息统一为结构化表示，解决从混合质量演示数据中学习有效探索策略的问题
区别于 VLN 任务（"跟随指令"），目标导航需要智能体"自主探索"，难以定义最优动作的监督信号

Card 03 核心贡献

核心贡献

提出统一的语义地图抽象方法，将历史观测编码为紧凑一致的空间表示，并利用奖励信号深入理解数据质量
引入三阶段训练pipeline：地图理解学习 → 行为克隆 → 奖励增强，依次优化模型能力
在 HM3D 和 Gibson 基准数据集上实现最先进的性能，即使在异构质量演示数据上也能学习有效的探索策略

Card 04 方法描述

方法描述

模型架构：包含地图编码器、观测编码器、跨模态融合模块（使用交叉注意力）、动作预测头和奖励预测头
语义地图构建：K×M×M 张量（K=C+2通道），包含障碍物、可导航区域和语义类别信息；动态旋转地图使智能体朝向上方
三阶段训练：

- 阶段1（地图理解）：使用 1.5M 地图-语言对，学习将语义地图嵌入统一表示空间，包含规则生成的地图描述和 LLM 生成的思维链推理

- 阶段2（行为克隆）：使用 0.73M 样本，冻结地图编码器和观测编码器，训练策略预测动作序列

- 阶段3（奖励增强）：使用 0.54M 样本，引入奖励头预测短期累积回报（RTG），采用 expectile regression 目标函数

Card 05 数据集与资源

数据集与资源

训练数据：HM3D 数据集的 75 个训练场景
评估数据：HM3D 验证集的 20 个场景，以及 Gibson 验证集的 5 个未见场景（1000 episodes）
数据规模：阶段1使用 1.5M 地图-语言对，阶段2使用 0.73M 样本，阶段3使用 0.54M 样本
评估指标：Success Rate（SR）和 Success weighted by Path Length（SPL）

Card 06 评估与结果

评估与结果

HM3D 验证集：MUVLA 达到 46.7% 成功率 和 21.0 SPL，比 MapNav（34.6% SR）提高 +12.1%
Gibson 零样本测试：达到 71.0% 成功率 和 41.1 SPL，无需任何微调
消融实验：

- 移除地图输入：SR 从 46.7% 降至 39.9%

- 移除阶段1地图描述：SR 降至 39.6%（下降约15%）

- 移除阶段3奖励增强：SR 从 46.7% 降至 42.8%

- 完整三阶段训练效果最佳，验证了各阶段的互补性