一眼看懂
封面预览
研究目标:解决视觉-语言导航(VLN)任务中链式思考(CoT)推理的局限性,实现高效且具有推理能力的实时导航
- 研究目标:解决视觉-语言导航(VLN)任务中链式思考(CoT)推理的局限性,实现高效且具有推理能力的实时导航
- 核心问题:现有方法存在两大缺陷:纯文本 CoT 缺乏空间感知,容易过拟合;多模态 CoT 生成大量视觉 token,导致推理延迟急剧增加(3k…
- 解决方案:提出 FantasyVLN 框架,采用隐式推理范式——训练时使用多种 CoT 模式进行学习,推理时直接进行指令到动作的映射,保留推理…
Card 01
研究单位
研究单位
- Fantasy AIGC Team(主要研究团队)
- 北京邮电大学(Beijing University of Posts and Telecommunications)
- 清华大学(Tsinghua University)
Card 02
论文概述
论文概述
- 研究目标:解决视觉-语言导航(VLN)任务中链式思考(CoT)推理的局限性,实现高效且具有推理能力的实时导航
- 核心问题:现有方法存在两大缺陷:纯文本 CoT 缺乏空间感知,容易过拟合;多模态 CoT 生成大量视觉 token,导致推理延迟急剧增加(3k-5k tokens vs 文本 CoT 的 <500 tokens)
- 解决方案:提出 FantasyVLN 框架,采用隐式推理范式——训练时使用多种 CoT 模式进行学习,推理时直接进行指令到动作的映射,保留推理能力的同时消除显式 token 开销
Card 03
核心贡献
核心贡献
- 首个统一隐式 CoT 推理框架:整合文本、视觉和多模态 CoT 范式于单一模型,实现推理感知且实时的导航
- 门控多 CoT 学习机制:通过二元门控信号(g_T, g_V)在共享参数下无缝切换不同推理模式
- 紧凑视觉链式思考(CompV-CoT):使用预训练的视觉自回归模型(VAR)将想象观测压缩到紧凑潜在空间,压缩比高达 1/2185
- 跨模态对齐约束:将 CoT 驱动的动作预测与直接预测对齐,学习模态不变的推理表示
- 显著性能提升:在 LH-VLN 基准上大幅提升导航成功率和效率,推理延迟比显式 CoT 方法降低一个数量级
Card 04
方法描述
方法描述
- 基础模型:基于 Qwen2.5-VL(7B 参数)构建
- 紧凑视觉 CoT:使用 VAR(Visual Autoregressive)模型在潜在空间进行视觉推理,将 256×256 图像压缩为仅 30 个视觉 token,远优于 VAE(1/64)和 VQVAE(1/64)的压缩率
- 统一多模态 CoT:通过门控机制支持四种推理模式:非 CoT、T-CoT、V-CoT 和 MM-CoT,使用特殊标签标识各模式并统一输入格式和模型参数
- 跨模态对齐:在训练中交替优化非 CoT 目标函数和跨模态对齐目标函数,将所有 CoT 变体的动作预测与直接预测对齐
- 推理策略:遵循 "train-with-CoT, infer-without-CoT" 范式,推理时使用非 CoT 模式直接预测动作,避免显式 CoT token 解码
Card 05
数据集与资源
数据集与资源
- 基准数据集:LH-VLN(Long-Horizon Vision-Language Navigation)— 多阶段、长视野导航基准,测试集包含未见过的任务和场景
- 模型规模:7B 参数(Qwen2.5-VL)
- 文本推理数据:使用 Qwen-VL-Max 生成文本推理轨迹
- 训练数据量:约 18k 个五步轨迹片段
- VAR 尺度选择:最优尺度为 4,平衡视觉信息完整性和冗余度
Card 06
评估与结果
评估与结果
- 评估指标:Success Rate(SR)、Independent Success Rate(ISR)、Conditional Success Rate(CSR)、CSR weighted by Ground Truth(CGT)、Action Per Second(APS)
- 主要结果:FantasyVLN 达到 SR=2.44、ISR=11.01、CSR=9.64、CGT=8.99,显著超越所有基线方法
- 对比基线:Aux-Think(SR=0.65)、MGDM、CoT-VLA、WorldVLA 等
- 推理效率:APS=1.03(隐式推理),比显式 CoT 方法 CoT-VLA(APS=0.19)快约 5 倍
- 消融实验:
- 各推理模式组合均有性能提升,全部四种模式组合效果最佳
- 无跨模态对齐约束时性能大幅下降(SR 从 2.44 降至 0)
- 隐式推理始终优于显式推理,尤其在多模态设置下