CorrectNav: Self-Correction Flywheel Empowers Vision-Language-Action Navigation Model

一眼看懂封面预览

提出 CorrectNav，一种基于单目 RGB 的 Vision-Language-Action (VLA) 导航模型，解决视觉语言导航（V…

Card 01 研究单位

研究单位

Card 02 论文概述

提出 CorrectNav，一种基于单目 RGB 的 Vision-Language-Action (VLA) 导航模型，解决视觉语言导航（VLN）中的错误累积问题
核心创新是 Self-correction Flywheel 后训练范式，通过自动检测轨迹偏差并生成自校正数据，使模型具备自我纠错能力
解决现有 VLN 模型缺乏有效错误校正能力、难以从错误中恢复的核心瓶颈

Card 03 核心贡献

提出 Self-correction Flywheel 后训练范式，将训练集上的错误轨迹转化为有价值的校正数据来源
开发自动轨迹偏差检测方法，精确定位导航错误发生的位置
设计两类自校正数据生成技术：Error-correcting Trajectory（动作校正）和 Keyframe Perception（感知校正）
实现多轮迭代训练机制，形成持续自我增强的"飞轮效应"
在 R2R-CE 和 RxR-CE 基准上取得 SOTA 性能，并在真实机器人上验证有效性

Card 04 方法描述

模型架构：基于 LLaVA-Video 7B 初始化，采用 SigLIP 视觉编码器、2层 MLP 投影器和 Qwen2 大语言模型
导航微调：包含三项任务——导航动作预测（预测 m 步动作序列）、基于轨迹的指令生成、通用多模态数据召回（ActivityNet-QA 和 NextQA）
领域随机化：随机化相机高度、视场角、分辨率和光照条件，增强视觉多样性
Self-correction Flywheel 四步循环：

- 在训练集上评估模型收集错误轨迹

- 通过距离阈值检测轨迹偏差点

- 利用轨迹规划器生成纠错轨迹，使用 Qwen-VL-Plus 生成关键帧感知数据（描述和问答对）

- 混合原始数据和自校正数据进行持续训练

Card 05 数据集与资源

数据集：R2R-CE、RxR-CE（VLN-CE 基准），LLaVA-Video 178K 子集（ActivityNet-QA、NextQA 共 240K 样本）
模型规模：7B 参数（基于 LLaVA-Video 7B）
训练数据：210 万步导航动作预测数据（527K R2R + 1.58M RxR），30K 轨迹用于指令生成
训练资源：8 张 NVIDIA A100 GPU，导航微调 80 小时，每轮 Self-correction Flywheel 20 小时

Card 06 评估与结果

仿真环境：Habitat 3.0 模拟器，R2R-CE 和 RxR-CE 的 Val-Unseen 划分
评估指标：Navigation Error (NE)、Oracle Success Rate (OS)、Success Rate (SR)、Success-weighted Path Length (SPL)、normalized DTW (nDTW)
关键结果：

- R2R-CE：SR 65.1%，超越此前最佳 VLA 模型 StreamVLN（56.9%）达 8.2%

- RxR-CE：SR 69.3%，超越此前最佳 StreamVLN（52.9%）达 16.4%

- 三轮 Self-correction Flywheel 迭代后性能持续提升，第四轮出现下降时停止

真实机器人实验：在 AgiBot Lingxi D1 四足机器人上测试，覆盖办公室、家庭、校园场景，在简单/复杂指令上均显著优于 NaVid 和 NaVILA，展现出色的错误校正、动态避障和长指令跟随能力