论文提出了 Progress-Think 框架，旨在解决视觉-语言导航（VLN）中现有方法忽略观察序列与指令语义“单调共进”特性的问题。

论文详情

Progress-Think: Semantic Progress Reasoning for Vision-Language Navigation

2025-11-21 · 原文 · 翻译 · 2511.17097

论文提出了 Progress-Think 框架，旨在解决视觉-语言导航（VLN）中现有方法忽略观察序列与指令语义“单调共进”特性的问题。核心思想是将导航进度估计重构为语义进度推理，即通过视觉观察推断已完成的指令片段，而非依赖不可靠的数值估计。提出了一种无需人工标注的三阶段训练流程，实现了进度推理模块与策略模块的联合优化，提升了长视野导航的一致性和可解释性。

5 分钟读完 6 张阅读卡 Renmin University of China（中国人民大学）

一眼看懂封面预览

论文提出了 Progress-Think 框架，旨在解决视觉-语言导航（VLN）中现有方法忽略观察序列与指令语义“单调共进”特性的问题。

论文提出了 Progress-Think 框架，旨在解决视觉-语言导航（VLN）中现有方法忽略观察序列与指令语义“单调共进”特性的问题。
核心思想是将导航进度估计重构为语义进度推理，即通过视觉观察推断已完成的指令片段，而非依赖不可靠的数值估计。
提出了一种无需人工标注的三阶段训练流程，实现了进度推理模块与策略模块的联合优化，提升了长视野导航的一致性和可解释性。

Card 01 研究单位

研究单位

Renmin University of China（中国人民大学）
Horizon Robotics（地平线机器人）
Beijing Advanced Innovation Center for Future Blockchain and Privacy Computing（北京先进区块链与隐私计算研究院）

Card 02 论文概述

论文概述

论文提出了 Progress-Think 框架，旨在解决视觉-语言导航（VLN）中现有方法忽略观察序列与指令语义“单调共进”特性的问题。
核心思想是将导航进度估计重构为语义进度推理，即通过视觉观察推断已完成的指令片段，而非依赖不可靠的数值估计。
提出了一种无需人工标注的三阶段训练流程，实现了进度推理模块与策略模块的联合优化，提升了长视野导航的一致性和可解释性。

Card 03 核心贡献

核心贡献

首次在 VLN 任务中引入语义进度推理，将进度估计定义为视觉与指令前缀的逐步对齐过程。
设计了无需标注的三阶段框架：Self-Aligned Progress Pretraining (SAPP)、Progress-Guided Policy Pretraining 和 Progress-Policy Co-Finetuning (PPCF)。
在 R2R-CE 和 RxR-CE 基准测试中取得了最先进（SOTA）的性能，仅使用单目 RGB 输入即超越了依赖深度图和全景视图的方法。

Card 04 方法描述

方法描述

设计了 Progress Reasoning Module (PRM)，利用视觉历史预测已完成的指令文本，利用指令本身的前缀结构作为自监督信号。
提出了 Prefix-Subset Soft Cross-Entropy Loss 和 Monotonic Ordering Loss，分别用于软对齐指令前缀和强化进度的单调递增时序特性。
构建了 Progress-Guided VLA (PG-VLA) 模块，将 PRM 预测的进度作为显式条件引导动作生成。
采用 Group Relative Policy Optimization (GRPO) 进行协同微调，设计了动作奖励、格式奖励和进度长度奖励来联合优化进度推理与导航策略。

Card 05 数据集与资源

数据集与资源

使用 R2R-CE、RxR-CE 和 ScaleVLN 数据集的训练集构建数据，生成了约 1200K 状态-动作对。
基于 NVILA-2B 模型初始化，最终模型参数总量为 2B+2B（分别用于 PRM 和 PG-VLA）。
训练硬件为 8 张 NVIDIA H20 GPU，三个训练阶段总耗时约 128 小时。

Card 06 评估与结果

评估与结果

主要评估环境为 R2R-CE 和 RxR-CE 的 Val-Unseen 测试集，核心指标为 SR（成功率）、SPL（路径效率）和 NE（导航误差）。
在 R2R-CE Val-Unseen 上，模型取得了 SR 60.1% 和 SPL 53.6%，显著优于之前的最佳方法（如 NaVILA, MonoDream）。
在 RxR-CE 跨数据集泛化测试中（仅用 R2R 训练），取得了 SR 27.5%，证明了模型强大的泛化能力。
消融实验验证了自对齐损失函数和协同微调奖励机制对提升导航性能的关键作用。