一眼看懂
封面预览
论文提出了 Progress-Think 框架,旨在解决视觉-语言导航(VLN)中现有方法忽略观察序列与指令语义“单调共进”特性的问题。
- 论文提出了 Progress-Think 框架,旨在解决视觉-语言导航(VLN)中现有方法忽略观察序列与指令语义“单调共进”特性的问题。
- 核心思想是将导航进度估计重构为语义进度推理,即通过视觉观察推断已完成的指令片段,而非依赖不可靠的数值估计。
- 提出了一种无需人工标注的三阶段训练流程,实现了进度推理模块与策略模块的联合优化,提升了长视野导航的一致性和可解释性。
Card 01
研究单位
研究单位
- Renmin University of China(中国人民大学)
- Horizon Robotics(地平线机器人)
- Beijing Advanced Innovation Center for Future Blockchain and Privacy Computing(北京先进区块链与隐私计算研究院)
Card 02
论文概述
论文概述
- 论文提出了 Progress-Think 框架,旨在解决视觉-语言导航(VLN)中现有方法忽略观察序列与指令语义“单调共进”特性的问题。
- 核心思想是将导航进度估计重构为语义进度推理,即通过视觉观察推断已完成的指令片段,而非依赖不可靠的数值估计。
- 提出了一种无需人工标注的三阶段训练流程,实现了进度推理模块与策略模块的联合优化,提升了长视野导航的一致性和可解释性。
Card 03
核心贡献
核心贡献
- 首次在 VLN 任务中引入语义进度推理,将进度估计定义为视觉与指令前缀的逐步对齐过程。
- 设计了无需标注的三阶段框架:Self-Aligned Progress Pretraining (SAPP)、Progress-Guided Policy Pretraining 和 Progress-Policy Co-Finetuning (PPCF)。
- 在 R2R-CE 和 RxR-CE 基准测试中取得了最先进(SOTA)的性能,仅使用单目 RGB 输入即超越了依赖深度图和全景视图的方法。
Card 04
方法描述
方法描述
- 设计了 Progress Reasoning Module (PRM),利用视觉历史预测已完成的指令文本,利用指令本身的前缀结构作为自监督信号。
- 提出了 Prefix-Subset Soft Cross-Entropy Loss 和 Monotonic Ordering Loss,分别用于软对齐指令前缀和强化进度的单调递增时序特性。
- 构建了 Progress-Guided VLA (PG-VLA) 模块,将 PRM 预测的进度作为显式条件引导动作生成。
- 采用 Group Relative Policy Optimization (GRPO) 进行协同微调,设计了动作奖励、格式奖励和进度长度奖励来联合优化进度推理与导航策略。
Card 05
数据集与资源
数据集与资源
- 使用 R2R-CE、RxR-CE 和 ScaleVLN 数据集的训练集构建数据,生成了约 1200K 状态-动作对。
- 基于 NVILA-2B 模型初始化,最终模型参数总量为 2B+2B(分别用于 PRM 和 PG-VLA)。
- 训练硬件为 8 张 NVIDIA H20 GPU,三个训练阶段总耗时约 128 小时。
Card 06
评估与结果
评估与结果
- 主要评估环境为 R2R-CE 和 RxR-CE 的 Val-Unseen 测试集,核心指标为 SR(成功率)、SPL(路径效率)和 NE(导航误差)。
- 在 R2R-CE Val-Unseen 上,模型取得了 SR 60.1% 和 SPL 53.6%,显著优于之前的最佳方法(如 NaVILA, MonoDream)。
- 在 RxR-CE 跨数据集泛化测试中(仅用 R2R 训练),取得了 SR 27.5%,证明了模型强大的泛化能力。
- 消融实验验证了自对齐损失函数和协同微调奖励机制对提升导航性能的关键作用。