研究目标：解决视觉-语言导航（VLN）任务中链式思考（CoT）推理的局限性，实现高效且具有推理能力的实时导航

论文详情

FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation

2026-01-20 · 原文 · 翻译 · 2601.13976

研究目标：解决视觉-语言导航（VLN）任务中链式思考（CoT）推理的局限性，实现高效且具有推理能力的实时导航核心问题：现有方法存在两大缺陷：纯文本 CoT 缺乏空间感知，容易过拟合；多模态 CoT 生成大量视觉 token，导致推理延迟急剧增加（3k-5k tokens vs 文本 CoT 的 <500 tokens）解决方案：提出 FantasyVLN 框架，采用隐式推理范式——训练时使用多种 CoT 模式进…

6 分钟读完 6 张阅读卡 Fantasy AIGC Team（主要研究团队）

一眼看懂封面预览

研究目标：解决视觉-语言导航（VLN）任务中链式思考（CoT）推理的局限性，实现高效且具有推理能力的实时导航

研究目标：解决视觉-语言导航（VLN）任务中链式思考（CoT）推理的局限性，实现高效且具有推理能力的实时导航
核心问题：现有方法存在两大缺陷：纯文本 CoT 缺乏空间感知，容易过拟合；多模态 CoT 生成大量视觉 token，导致推理延迟急剧增加（3k…
解决方案：提出 FantasyVLN 框架，采用隐式推理范式——训练时使用多种 CoT 模式进行学习，推理时直接进行指令到动作的映射，保留推理…

Card 01 研究单位

研究单位

Fantasy AIGC Team（主要研究团队）
北京邮电大学（Beijing University of Posts and Telecommunications）
清华大学（Tsinghua University）

Card 02 论文概述

论文概述

研究目标：解决视觉-语言导航（VLN）任务中链式思考（CoT）推理的局限性，实现高效且具有推理能力的实时导航
核心问题：现有方法存在两大缺陷：纯文本 CoT 缺乏空间感知，容易过拟合；多模态 CoT 生成大量视觉 token，导致推理延迟急剧增加（3k-5k tokens vs 文本 CoT 的 <500 tokens）
解决方案：提出 FantasyVLN 框架，采用隐式推理范式——训练时使用多种 CoT 模式进行学习，推理时直接进行指令到动作的映射，保留推理能力的同时消除显式 token 开销

Card 03 核心贡献

核心贡献

首个统一隐式 CoT 推理框架：整合文本、视觉和多模态 CoT 范式于单一模型，实现推理感知且实时的导航
门控多 CoT 学习机制：通过二元门控信号（g_T, g_V）在共享参数下无缝切换不同推理模式
紧凑视觉链式思考（CompV-CoT）：使用预训练的视觉自回归模型（VAR）将想象观测压缩到紧凑潜在空间，压缩比高达 1/2185
跨模态对齐约束：将 CoT 驱动的动作预测与直接预测对齐，学习模态不变的推理表示
显著性能提升：在 LH-VLN 基准上大幅提升导航成功率和效率，推理延迟比显式 CoT 方法降低一个数量级

Card 04 方法描述

方法描述

基础模型：基于 Qwen2.5-VL（7B 参数）构建
紧凑视觉 CoT：使用 VAR（Visual Autoregressive）模型在潜在空间进行视觉推理，将 256×256 图像压缩为仅 30 个视觉 token，远优于 VAE（1/64）和 VQVAE（1/64）的压缩率
统一多模态 CoT：通过门控机制支持四种推理模式：非 CoT、T-CoT、V-CoT 和 MM-CoT，使用特殊标签标识各模式并统一输入格式和模型参数
跨模态对齐：在训练中交替优化非 CoT 目标函数和跨模态对齐目标函数，将所有 CoT 变体的动作预测与直接预测对齐
推理策略：遵循 "train-with-CoT, infer-without-CoT" 范式，推理时使用非 CoT 模式直接预测动作，避免显式 CoT token 解码

Card 05 数据集与资源

数据集与资源

基准数据集：LH-VLN（Long-Horizon Vision-Language Navigation）— 多阶段、长视野导航基准，测试集包含未见过的任务和场景
模型规模：7B 参数（Qwen2.5-VL）
文本推理数据：使用 Qwen-VL-Max 生成文本推理轨迹
训练数据量：约 18k 个五步轨迹片段
VAR 尺度选择：最优尺度为 4，平衡视觉信息完整性和冗余度

Card 06 评估与结果

评估与结果

评估指标：Success Rate（SR）、Independent Success Rate（ISR）、Conditional Success Rate（CSR）、CSR weighted by Ground Truth（CGT）、Action Per Second（APS）
主要结果：FantasyVLN 达到 SR=2.44、ISR=11.01、CSR=9.64、CGT=8.99，显著超越所有基线方法
对比基线：Aux-Think（SR=0.65）、MGDM、CoT-VLA、WorldVLA 等
推理效率：APS=1.03（隐式推理），比显式 CoT 方法 CoT-VLA（APS=0.19）快约 5 倍
消融实验：

- 各推理模式组合均有性能提升，全部四种模式组合效果最佳

- 无跨模态对齐约束时性能大幅下降（SR 从 2.44 降至 0）

- 隐式推理始终优于显式推理，尤其在多模态设置下