返回列表 VLA / Vision-Language-Action 每日论文卡

OctoNav: Towards Generalist Embodied Navigation

论文详情

OctoNav: Towards Generalist Embodied Navigation

2025-06-11 · 原文 · 翻译 · 2506.09839

论文旨在构建通用具身导航智能体(Generalist Embodied Navigation Agent),使智能体能够遵循自由形式的指令,这些指令包含任意组合的多模态(视觉、语言、空间坐标)和多能力(ObjNav、PointNav、ImgNav、Ins-ImgNav、VLN)混合指令 提出OctoNav-Bench大规模基准数据集和OctoNav-R1 VLA(Vision-Language-Action)模型…

6 分钟读完 6 张阅读卡 Beihang University(北京航空航天大学)- 主要作者所属机构
一眼看懂 封面预览

论文旨在构建通用具身导航智能体(Generalist Embodied Navigation Agent),使智能体能够遵循自由形式的指令,这…

  • 论文旨在构建通用具身导航智能体(Generalist Embodied Navigation Agent),使智能体能够遵循自由形式的指令,这…
  • 提出OctoNav-Bench大规模基准数据集和OctoNav-R1 VLA(Vision-Language-Action)模型,解决现有导航…
  • 引入Think-Before-Action(TBA)范式,借鉴 DeepSeek-R1 的推理能力,让导航智能体在执行动作前进行显式推理
Card 01 研究单位

研究单位

  • Beihang University(北京航空航天大学)- 主要作者所属机构
  • National University of Singapore(新加坡国立大学)- Chen Gao 所属
  • Peking University(北京大学)- Jiazhao Zhang、He Wang 所属
  • Zhongguancun Academy(中关村 Academy)- Yue Deng、Xingyu Peng 所属
Card 02 论文概述

论文概述

  • 论文旨在构建通用具身导航智能体(Generalist Embodied Navigation Agent),使智能体能够遵循自由形式的指令,这些指令包含任意组合的多模态(视觉、语言、空间坐标)和多能力(ObjNav、PointNav、ImgNav、Ins-ImgNav、VLN)混合指令
  • 提出OctoNav-Bench大规模基准数据集和OctoNav-R1 VLA(Vision-Language-Action)模型,解决现有导航任务割裂的问题
  • 引入Think-Before-Action(TBA)范式,借鉴 DeepSeek-R1 的推理能力,让导航智能体在执行动作前进行显式推理
Card 03 核心贡献

核心贡献

  • 提出OctoNav-Bench:首个大规模通用具身导航基准,包含45k+指令-轨迹对,支持自由形式、多模态、多能力的复合指令
  • 构建TBA-CoT数据集:使用 Qwen-VL 和 DeepSeek-R1 自动生成的思维链数据集,为动作决策提供推理过程
  • 提出Hybrid Training Paradigm (HTP):三阶段混合训练范式,结合 Action-SFT、TBA-SFT、Nav-GRPO 和在线 RL
  • 设计Nav-GRPO:面向导航的分组相对策略优化方法,自定义奖励函数增强模型的思考能力
  • 实现OctoNav-R1:基于 LLaMA-VID 的 VLA 模型,可直接基于2D视觉观测生成低级动作(移动、转向、停止)
Card 04 方法描述

方法描述

  • 模型架构:基于 LLaMA-VID 构建,接收多模态指令(文本、图像、坐标)和视觉观测(历史+当前),输出结构化思考和动作
  • 三阶段训练

- Stage I (Action/TBA-SFT):使用指令-轨迹对进行行为克隆;使用 TBA-CoT 数据集进行思考-动作联合输出训练

- Stage II (Nav-GRPO):使用 GRPO 算法和自定义奖励函数进一步增强思考能力

- Stage III (Online RL):在连续仿真环境中进行在线强化学习,支持试错和主动学习

  • TBA格式:输出采用 可执行动作 结构化格式
Card 05 数据集与资源

数据集与资源

  • 数据集:OctoNav-Bench 包含 45k+ 指令-轨迹对,来自 400+ 室内3D场景
  • 数据来源:MP3D、Matterport3D、HM3D、Gibson、ProcTHOR
  • 数据多样性:支持 ObjNav、PointNav、ImgNav、Ins-ImgNav、VLN 五种能力任意组合;支持视觉[V]、语言[L]、坐标[P] 多模态
  • 模型基座:LLaMA-VID
  • 训练环境:连续仿真环境(Continuous Environment),支持在线 RL
Card 06 评估与结果

评估与结果

  • 评估环境:OctoNav-Bench 连续仿真环境
  • 评估指标:分能力准确率(按 ObjNav、PointNav、VLN、ImgNav、Ins-ImgNav 等能力细分)
  • 实验结果:OctoNav-R1 在所有导航能力上均优于 previous methods,展示了其通用性和多任务处理能力
  • Sim2Real:在真实机器人上部署验证了 sim-to-real 迁移能力