返回列表 VLA / Vision-Language-Action 每日论文卡
FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation
研究目标:解决视觉-语言导航(VLN)任务中链式思考(CoT)推理的局限性,实现高效且具有推理能力的实时导航

论文详情

FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation

2026-01-20 · 原文 · 翻译 · 2601.13976

研究目标:解决视觉-语言导航(VLN)任务中链式思考(CoT)推理的局限性,实现高效且具有推理能力的实时导航 核心问题:现有方法存在两大缺陷:纯文本 CoT 缺乏空间感知,容易过拟合;多模态 CoT 生成大量视觉 token,导致推理延迟急剧增加(3k-5k tokens vs 文本 CoT 的 <500 tokens) 解决方案:提出 FantasyVLN 框架,采用隐式推理范式——训练时使用多种 CoT 模式进…

6 分钟读完 6 张阅读卡 Fantasy AIGC Team(主要研究团队)
一眼看懂 封面预览

研究目标:解决视觉-语言导航(VLN)任务中链式思考(CoT)推理的局限性,实现高效且具有推理能力的实时导航

  • 研究目标:解决视觉-语言导航(VLN)任务中链式思考(CoT)推理的局限性,实现高效且具有推理能力的实时导航
  • 核心问题:现有方法存在两大缺陷:纯文本 CoT 缺乏空间感知,容易过拟合;多模态 CoT 生成大量视觉 token,导致推理延迟急剧增加(3k…
  • 解决方案:提出 FantasyVLN 框架,采用隐式推理范式——训练时使用多种 CoT 模式进行学习,推理时直接进行指令到动作的映射,保留推理…
Card 01 研究单位

研究单位

  • Fantasy AIGC Team(主要研究团队)
  • 北京邮电大学(Beijing University of Posts and Telecommunications)
  • 清华大学(Tsinghua University)
Card 02 论文概述

论文概述

  • 研究目标:解决视觉-语言导航(VLN)任务中链式思考(CoT)推理的局限性,实现高效且具有推理能力的实时导航
  • 核心问题:现有方法存在两大缺陷:纯文本 CoT 缺乏空间感知,容易过拟合;多模态 CoT 生成大量视觉 token,导致推理延迟急剧增加(3k-5k tokens vs 文本 CoT 的 <500 tokens)
  • 解决方案:提出 FantasyVLN 框架,采用隐式推理范式——训练时使用多种 CoT 模式进行学习,推理时直接进行指令到动作的映射,保留推理能力的同时消除显式 token 开销
Card 03 核心贡献

核心贡献

  • 首个统一隐式 CoT 推理框架:整合文本、视觉和多模态 CoT 范式于单一模型,实现推理感知且实时的导航
  • 门控多 CoT 学习机制:通过二元门控信号(g_T, g_V)在共享参数下无缝切换不同推理模式
  • 紧凑视觉链式思考(CompV-CoT):使用预训练的视觉自回归模型(VAR)将想象观测压缩到紧凑潜在空间,压缩比高达 1/2185
  • 跨模态对齐约束:将 CoT 驱动的动作预测与直接预测对齐,学习模态不变的推理表示
  • 显著性能提升:在 LH-VLN 基准上大幅提升导航成功率和效率,推理延迟比显式 CoT 方法降低一个数量级
Card 04 方法描述

方法描述

  • 基础模型:基于 Qwen2.5-VL(7B 参数)构建
  • 紧凑视觉 CoT:使用 VAR(Visual Autoregressive)模型在潜在空间进行视觉推理,将 256×256 图像压缩为仅 30 个视觉 token,远优于 VAE(1/64)和 VQVAE(1/64)的压缩率
  • 统一多模态 CoT:通过门控机制支持四种推理模式:非 CoT、T-CoT、V-CoT 和 MM-CoT,使用特殊标签标识各模式并统一输入格式和模型参数
  • 跨模态对齐:在训练中交替优化非 CoT 目标函数和跨模态对齐目标函数,将所有 CoT 变体的动作预测与直接预测对齐
  • 推理策略:遵循 "train-with-CoT, infer-without-CoT" 范式,推理时使用非 CoT 模式直接预测动作,避免显式 CoT token 解码
Card 05 数据集与资源

数据集与资源

  • 基准数据集LH-VLN(Long-Horizon Vision-Language Navigation)— 多阶段、长视野导航基准,测试集包含未见过的任务和场景
  • 模型规模:7B 参数(Qwen2.5-VL)
  • 文本推理数据:使用 Qwen-VL-Max 生成文本推理轨迹
  • 训练数据量:约 18k 个五步轨迹片段
  • VAR 尺度选择:最优尺度为 4,平衡视觉信息完整性和冗余度
Card 06 评估与结果

评估与结果

  • 评估指标:Success Rate(SR)、Independent Success Rate(ISR)、Conditional Success Rate(CSR)、CSR weighted by Ground Truth(CGT)、Action Per Second(APS)
  • 主要结果:FantasyVLN 达到 SR=2.44、ISR=11.01、CSR=9.64、CGT=8.99,显著超越所有基线方法
  • 对比基线:Aux-Think(SR=0.65)、MGDM、CoT-VLA、WorldVLA 等
  • 推理效率:APS=1.03(隐式推理),比显式 CoT 方法 CoT-VLA(APS=0.19)快约 5 倍
  • 消融实验

- 各推理模式组合均有性能提升,全部四种模式组合效果最佳

- 无跨模态对齐约束时性能大幅下降(SR 从 2.44 降至 0)

- 隐式推理始终优于显式推理,尤其在多模态设置下