一眼看懂
封面预览
论文旨在构建通用具身导航智能体(Generalist Embodied Navigation Agent),使智能体能够遵循自由形式的指令,这…
- 论文旨在构建通用具身导航智能体(Generalist Embodied Navigation Agent),使智能体能够遵循自由形式的指令,这…
- 提出OctoNav-Bench大规模基准数据集和OctoNav-R1 VLA(Vision-Language-Action)模型,解决现有导航…
- 引入Think-Before-Action(TBA)范式,借鉴 DeepSeek-R1 的推理能力,让导航智能体在执行动作前进行显式推理
Card 01
研究单位
研究单位
- Beihang University(北京航空航天大学)- 主要作者所属机构
- National University of Singapore(新加坡国立大学)- Chen Gao 所属
- Peking University(北京大学)- Jiazhao Zhang、He Wang 所属
- Zhongguancun Academy(中关村 Academy)- Yue Deng、Xingyu Peng 所属
Card 02
论文概述
论文概述
- 论文旨在构建通用具身导航智能体(Generalist Embodied Navigation Agent),使智能体能够遵循自由形式的指令,这些指令包含任意组合的多模态(视觉、语言、空间坐标)和多能力(ObjNav、PointNav、ImgNav、Ins-ImgNav、VLN)混合指令
- 提出OctoNav-Bench大规模基准数据集和OctoNav-R1 VLA(Vision-Language-Action)模型,解决现有导航任务割裂的问题
- 引入Think-Before-Action(TBA)范式,借鉴 DeepSeek-R1 的推理能力,让导航智能体在执行动作前进行显式推理
Card 03
核心贡献
核心贡献
- 提出OctoNav-Bench:首个大规模通用具身导航基准,包含45k+指令-轨迹对,支持自由形式、多模态、多能力的复合指令
- 构建TBA-CoT数据集:使用 Qwen-VL 和 DeepSeek-R1 自动生成的思维链数据集,为动作决策提供推理过程
- 提出Hybrid Training Paradigm (HTP):三阶段混合训练范式,结合 Action-SFT、TBA-SFT、Nav-GRPO 和在线 RL
- 设计Nav-GRPO:面向导航的分组相对策略优化方法,自定义奖励函数增强模型的思考能力
- 实现OctoNav-R1:基于 LLaMA-VID 的 VLA 模型,可直接基于2D视觉观测生成低级动作(移动、转向、停止)
Card 04
方法描述
方法描述
- 模型架构:基于 LLaMA-VID 构建,接收多模态指令(文本、图像、坐标)和视觉观测(历史+当前),输出结构化思考和动作
- 三阶段训练:
- Stage I (Action/TBA-SFT):使用指令-轨迹对进行行为克隆;使用 TBA-CoT 数据集进行思考-动作联合输出训练
- Stage II (Nav-GRPO):使用 GRPO 算法和自定义奖励函数进一步增强思考能力
- Stage III (Online RL):在连续仿真环境中进行在线强化学习,支持试错和主动学习
- TBA格式:输出采用
结构化格式可执行动作
Card 05
数据集与资源
数据集与资源
- 数据集:OctoNav-Bench 包含 45k+ 指令-轨迹对,来自 400+ 室内3D场景
- 数据来源:MP3D、Matterport3D、HM3D、Gibson、ProcTHOR
- 数据多样性:支持 ObjNav、PointNav、ImgNav、Ins-ImgNav、VLN 五种能力任意组合;支持视觉[V]、语言[L]、坐标[P] 多模态
- 模型基座:LLaMA-VID
- 训练环境:连续仿真环境(Continuous Environment),支持在线 RL
Card 06
评估与结果
评估与结果
- 评估环境:OctoNav-Bench 连续仿真环境
- 评估指标:分能力准确率(按 ObjNav、PointNav、VLN、ImgNav、Ins-ImgNav 等能力细分)
- 实验结果:OctoNav-R1 在所有导航能力上均优于 previous methods,展示了其通用性和多任务处理能力
- Sim2Real:在真实机器人上部署验证了 sim-to-real 迁移能力