返回列表 VLA / Vision-Language-Action 每日论文卡

CorrectNav: Self-Correction Flywheel Empowers Vision-Language-Action Navigation Model

论文详情

CorrectNav: Self-Correction Flywheel Empowers Vision-Language-Action Navigation Model

2025-08-14 · 原文 · 翻译 · 2508.10416

提出 CorrectNav,一种基于单目 RGB 的 Vision-Language-Action (VLA) 导航模型,解决视觉语言导航(VLN)中的错误累积问题 核心创新是 Self-correction Flywheel 后训练范式,通过自动检测轨迹偏差并生成自校正数据,使模型具备自我纠错能力 解决现有 VLN 模型缺乏有效错误校正能力、难以从错误中恢复的核心瓶颈

6 分钟读完 6 张阅读卡 论文作者来自 北京大学(标注 1,2 的机构)
一眼看懂 封面预览

提出 CorrectNav,一种基于单目 RGB 的 Vision-Language-Action (VLA) 导航模型,解决视觉语言导航(V…

  • 提出 CorrectNav,一种基于单目 RGB 的 Vision-Language-Action (VLA) 导航模型,解决视觉语言导航(V…
  • 核心创新是 Self-correction Flywheel 后训练范式,通过自动检测轨迹偏差并生成自校正数据,使模型具备自我纠错能力
  • 解决现有 VLN 模型缺乏有效错误校正能力、难以从错误中恢复的核心瓶颈
Card 01 研究单位

研究单位

  • 论文作者来自 北京大学(标注 1,2 的机构)
  • 具体单位包括:计算机学院、智能学院、多媒体信息处理国家重点实验室
Card 02 论文概述

论文概述

  • 提出 CorrectNav,一种基于单目 RGB 的 Vision-Language-Action (VLA) 导航模型,解决视觉语言导航(VLN)中的错误累积问题
  • 核心创新是 Self-correction Flywheel 后训练范式,通过自动检测轨迹偏差并生成自校正数据,使模型具备自我纠错能力
  • 解决现有 VLN 模型缺乏有效错误校正能力、难以从错误中恢复的核心瓶颈
Card 03 核心贡献

核心贡献

  • 提出 Self-correction Flywheel 后训练范式,将训练集上的错误轨迹转化为有价值的校正数据来源
  • 开发自动轨迹偏差检测方法,精确定位导航错误发生的位置
  • 设计两类自校正数据生成技术:Error-correcting Trajectory(动作校正)和 Keyframe Perception(感知校正)
  • 实现多轮迭代训练机制,形成持续自我增强的"飞轮效应"
  • R2R-CERxR-CE 基准上取得 SOTA 性能,并在真实机器人上验证有效性
Card 04 方法描述

方法描述

  • 模型架构:基于 LLaVA-Video 7B 初始化,采用 SigLIP 视觉编码器、2层 MLP 投影器和 Qwen2 大语言模型
  • 导航微调:包含三项任务——导航动作预测(预测 m 步动作序列)、基于轨迹的指令生成、通用多模态数据召回(ActivityNet-QA 和 NextQA)
  • 领域随机化:随机化相机高度、视场角、分辨率和光照条件,增强视觉多样性
  • Self-correction Flywheel 四步循环:

- 在训练集上评估模型收集错误轨迹

- 通过距离阈值检测轨迹偏差点

- 利用轨迹规划器生成纠错轨迹,使用 Qwen-VL-Plus 生成关键帧感知数据(描述和问答对)

- 混合原始数据和自校正数据进行持续训练

Card 05 数据集与资源

数据集与资源

  • 数据集R2R-CERxR-CE(VLN-CE 基准),LLaVA-Video 178K 子集(ActivityNet-QA、NextQA 共 240K 样本)
  • 模型规模:7B 参数(基于 LLaVA-Video 7B)
  • 训练数据:210 万步导航动作预测数据(527K R2R + 1.58M RxR),30K 轨迹用于指令生成
  • 训练资源:8 张 NVIDIA A100 GPU,导航微调 80 小时,每轮 Self-correction Flywheel 20 小时
Card 06 评估与结果

评估与结果

  • 仿真环境Habitat 3.0 模拟器,R2R-CERxR-CE 的 Val-Unseen 划分
  • 评估指标:Navigation Error (NE)、Oracle Success Rate (OS)、Success Rate (SR)、Success-weighted Path Length (SPL)、normalized DTW (nDTW)
  • 关键结果

- R2R-CE:SR 65.1%,超越此前最佳 VLA 模型 StreamVLN(56.9%)达 8.2%

- RxR-CE:SR 69.3%,超越此前最佳 StreamVLN(52.9%)达 16.4%

- 三轮 Self-correction Flywheel 迭代后性能持续提升,第四轮出现下降时停止

  • 真实机器人实验:在 AgiBot Lingxi D1 四足机器人上测试,覆盖办公室、家庭、校园场景,在简单/复杂指令上均显著优于 NaVidNaVILA,展现出色的错误校正、动态避障和长指令跟随能力