一眼看懂
封面预览
提出 MUVLA(Map Understanding Vision-Language-Action)模型,用于目标导航任务
- 提出 MUVLA(Map Understanding Vision-Language-Action)模型,用于目标导航任务
- 核心目标:通过语义地图抽象化将历史轨迹信息统一为结构化表示,解决从混合质量演示数据中学习有效探索策略的问题
- 区别于 VLN 任务("跟随指令"),目标导航需要智能体"自主探索",难以定义最优动作的监督信号
Card 01
研究单位
研究单位
- Peilong Han - 天津大学(第一作者,同等贡献)
- Fan Jia - Dexmal(同等贡献)
- Min Zhang - 天津大学
- Yutao Qiu - 研究机构待确认
- Hongyao Tang - 天津大学
- Yan Zheng - 天津大学
- Tiancai Wang - Dexmal
- Jianye Hao - 天津大学
- 注:本研究在 Dexmal 实习期间完成
Card 02
论文概述
论文概述
- 提出 MUVLA(Map Understanding Vision-Language-Action)模型,用于目标导航任务
- 核心目标:通过语义地图抽象化将历史轨迹信息统一为结构化表示,解决从混合质量演示数据中学习有效探索策略的问题
- 区别于 VLN 任务("跟随指令"),目标导航需要智能体"自主探索",难以定义最优动作的监督信号
Card 03
核心贡献
核心贡献
- 提出统一的语义地图抽象方法,将历史观测编码为紧凑一致的空间表示,并利用奖励信号深入理解数据质量
- 引入三阶段训练pipeline:地图理解学习 → 行为克隆 → 奖励增强,依次优化模型能力
- 在 HM3D 和 Gibson 基准数据集上实现最先进的性能,即使在异构质量演示数据上也能学习有效的探索策略
Card 04
方法描述
方法描述
- 模型架构:包含地图编码器、观测编码器、跨模态融合模块(使用交叉注意力)、动作预测头和奖励预测头
- 语义地图构建:K×M×M 张量(K=C+2通道),包含障碍物、可导航区域和语义类别信息;动态旋转地图使智能体朝向上方
- 三阶段训练:
- 阶段1(地图理解):使用 1.5M 地图-语言对,学习将语义地图嵌入统一表示空间,包含规则生成的地图描述和 LLM 生成的思维链推理
- 阶段2(行为克隆):使用 0.73M 样本,冻结地图编码器和观测编码器,训练策略预测动作序列
- 阶段3(奖励增强):使用 0.54M 样本,引入奖励头预测短期累积回报(RTG),采用 expectile regression 目标函数
Card 05
数据集与资源
数据集与资源
- 训练数据:HM3D 数据集的 75 个训练场景
- 评估数据:HM3D 验证集的 20 个场景,以及 Gibson 验证集的 5 个未见场景(1000 episodes)
- 数据规模:阶段1使用 1.5M 地图-语言对,阶段2使用 0.73M 样本,阶段3使用 0.54M 样本
- 评估指标:Success Rate(SR)和 Success weighted by Path Length(SPL)
Card 06
评估与结果
评估与结果
- HM3D 验证集:MUVLA 达到 46.7% 成功率 和 21.0 SPL,比 MapNav(34.6% SR)提高 +12.1%
- Gibson 零样本测试:达到 71.0% 成功率 和 41.1 SPL,无需任何微调
- 消融实验:
- 移除地图输入:SR 从 46.7% 降至 39.9%
- 移除阶段1地图描述:SR 降至 39.6%(下降约15%)
- 移除阶段3奖励增强:SR 从 46.7% 降至 42.8%
- 完整三阶段训练效果最佳,验证了各阶段的互补性