一眼看懂
封面预览
提出 CorrectNav,一种基于单目 RGB 的 Vision-Language-Action (VLA) 导航模型,解决视觉语言导航(V…
- 提出 CorrectNav,一种基于单目 RGB 的 Vision-Language-Action (VLA) 导航模型,解决视觉语言导航(V…
- 核心创新是 Self-correction Flywheel 后训练范式,通过自动检测轨迹偏差并生成自校正数据,使模型具备自我纠错能力
- 解决现有 VLN 模型缺乏有效错误校正能力、难以从错误中恢复的核心瓶颈
Card 01
研究单位
研究单位
- 论文作者来自 北京大学(标注 1,2 的机构)
- 具体单位包括:计算机学院、智能学院、多媒体信息处理国家重点实验室
Card 02
论文概述
论文概述
- 提出 CorrectNav,一种基于单目 RGB 的 Vision-Language-Action (VLA) 导航模型,解决视觉语言导航(VLN)中的错误累积问题
- 核心创新是 Self-correction Flywheel 后训练范式,通过自动检测轨迹偏差并生成自校正数据,使模型具备自我纠错能力
- 解决现有 VLN 模型缺乏有效错误校正能力、难以从错误中恢复的核心瓶颈
Card 03
核心贡献
核心贡献
- 提出 Self-correction Flywheel 后训练范式,将训练集上的错误轨迹转化为有价值的校正数据来源
- 开发自动轨迹偏差检测方法,精确定位导航错误发生的位置
- 设计两类自校正数据生成技术:Error-correcting Trajectory(动作校正)和 Keyframe Perception(感知校正)
- 实现多轮迭代训练机制,形成持续自我增强的"飞轮效应"
- 在 R2R-CE 和 RxR-CE 基准上取得 SOTA 性能,并在真实机器人上验证有效性
Card 04
方法描述
方法描述
- 模型架构:基于 LLaVA-Video 7B 初始化,采用 SigLIP 视觉编码器、2层 MLP 投影器和 Qwen2 大语言模型
- 导航微调:包含三项任务——导航动作预测(预测 m 步动作序列)、基于轨迹的指令生成、通用多模态数据召回(ActivityNet-QA 和 NextQA)
- 领域随机化:随机化相机高度、视场角、分辨率和光照条件,增强视觉多样性
- Self-correction Flywheel 四步循环:
- 在训练集上评估模型收集错误轨迹
- 通过距离阈值检测轨迹偏差点
- 利用轨迹规划器生成纠错轨迹,使用 Qwen-VL-Plus 生成关键帧感知数据(描述和问答对)
- 混合原始数据和自校正数据进行持续训练
Card 05
数据集与资源
数据集与资源
- 数据集:R2R-CE、RxR-CE(VLN-CE 基准),LLaVA-Video 178K 子集(ActivityNet-QA、NextQA 共 240K 样本)
- 模型规模:7B 参数(基于 LLaVA-Video 7B)
- 训练数据:210 万步导航动作预测数据(527K R2R + 1.58M RxR),30K 轨迹用于指令生成
- 训练资源:8 张 NVIDIA A100 GPU,导航微调 80 小时,每轮 Self-correction Flywheel 20 小时
Card 06
评估与结果
评估与结果
- 仿真环境:Habitat 3.0 模拟器,R2R-CE 和 RxR-CE 的 Val-Unseen 划分
- 评估指标:Navigation Error (NE)、Oracle Success Rate (OS)、Success Rate (SR)、Success-weighted Path Length (SPL)、normalized DTW (nDTW)
- 关键结果:
- R2R-CE:SR 65.1%,超越此前最佳 VLA 模型 StreamVLN(56.9%)达 8.2%
- RxR-CE:SR 69.3%,超越此前最佳 StreamVLN(52.9%)达 16.4%
- 三轮 Self-correction Flywheel 迭代后性能持续提升,第四轮出现下降时停止
- 真实机器人实验:在 AgiBot Lingxi D1 四足机器人上测试,覆盖办公室、家庭、校园场景,在简单/复杂指令上均显著优于 NaVid 和 NaVILA,展现出色的错误校正、动态避障和长指令跟随能力