OctoNav: Towards Generalist Embodied Navigation - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

论文旨在构建通用具身导航智能体（Generalist Embodied Navigation Agent），使智能体能够遵循自由形式的指令，这…

Card 01 研究单位

研究单位

Card 02 论文概述

论文旨在构建通用具身导航智能体（Generalist Embodied Navigation Agent），使智能体能够遵循自由形式的指令，这些指令包含任意组合的多模态（视觉、语言、空间坐标）和多能力（ObjNav、PointNav、ImgNav、Ins-ImgNav、VLN）混合指令
提出OctoNav-Bench大规模基准数据集和OctoNav-R1 VLA（Vision-Language-Action）模型，解决现有导航任务割裂的问题
引入Think-Before-Action（TBA）范式，借鉴 DeepSeek-R1 的推理能力，让导航智能体在执行动作前进行显式推理

Card 03 核心贡献

提出OctoNav-Bench：首个大规模通用具身导航基准，包含45k+指令-轨迹对，支持自由形式、多模态、多能力的复合指令
构建TBA-CoT数据集：使用 Qwen-VL 和 DeepSeek-R1 自动生成的思维链数据集，为动作决策提供推理过程
提出Hybrid Training Paradigm (HTP)：三阶段混合训练范式，结合 Action-SFT、TBA-SFT、Nav-GRPO 和在线 RL
设计Nav-GRPO：面向导航的分组相对策略优化方法，自定义奖励函数增强模型的思考能力
实现OctoNav-R1：基于 LLaMA-VID 的 VLA 模型，可直接基于2D视觉观测生成低级动作（移动、转向、停止）

Card 04 方法描述

- Stage I (Action/TBA-SFT)：使用指令-轨迹对进行行为克隆；使用 TBA-CoT 数据集进行思考-动作联合输出训练

- Stage II (Nav-GRPO)：使用 GRPO 算法和自定义奖励函数进一步增强思考能力

- Stage III (Online RL)：在连续仿真环境中进行在线强化学习，支持试错和主动学习

Card 05 数据集与资源

数据集：OctoNav-Bench 包含 45k+ 指令-轨迹对，来自 400+ 室内3D场景
数据来源：MP3D、Matterport3D、HM3D、Gibson、ProcTHOR
数据多样性：支持 ObjNav、PointNav、ImgNav、Ins-ImgNav、VLN 五种能力任意组合；支持视觉[V]、语言[L]、坐标[P] 多模态
模型基座：LLaMA-VID
训练环境：连续仿真环境（Continuous Environment），支持在线 RL

Card 06 评估与结果