IndoorUAV: Benchmarking Vision-Language UAV Navigation in Continuous Indoor Environments

一眼看懂封面预览

提出 IndoorUAV，首个专门针对室内无人机（UAV）视觉语言导航（VLN）的大规模基准测试，填补了地面机器人与室外无人机导航之间的研究空白

提出 IndoorUAV，首个专门针对室内无人机（UAV）视觉语言导航（VLN）的大规模基准测试，填补了地面机器人与室外无人机导航之间的研究空白
构建了包含 IndoorUAV-VLN（长程导航，16,000+ 轨迹）和 IndoorUAV-VLA（短程控制，34,925+ 轨迹）两个子…
针对室内无人机导航的独特挑战：三维自由运动、密集障碍物、精细空间推理和实时避障

Card 01 研究单位

研究单位

北京大学（作者 Xu Liu, Yu Liu, Hanshuo Qiu, Yang Qirong, Zhouhui Lian 所属机构，其中 Zhouhui Lian 为通讯作者）
北京邮电大学（Zhouhui Lian 的第二所属机构）

Card 02 论文概述

论文概述

提出 IndoorUAV，首个专门针对室内无人机（UAV）视觉语言导航（VLN）的大规模基准测试，填补了地面机器人与室外无人机导航之间的研究空白
构建了包含 IndoorUAV-VLN（长程导航，16,000+ 轨迹）和 IndoorUAV-VLA（短程控制，34,925+ 轨迹）两个子集的数据集，支持从高层规划到低层控制的全面研究
针对室内无人机导航的独特挑战：三维自由运动、密集障碍物、精细空间推理和实时避障

Card 03 核心贡献

核心贡献

发布首个专门针对室内无人机视觉语言导航的大规模基准 IndoorUAV，包含 50,965 条高质量轨迹，覆盖 1,075 个多样化室内场景
开发自动化数据收集与标注流程，基于 GPT-4o 生成多粒度自然语言指令，并设计轨迹增强策略（反转、重组）提升数据多样性
提出 IndoorUAV-Agent，采用任务分解架构：用 LLM 将长程指令分解为短程子任务，再由 VLA 模型（π₀）顺序执行，实现高层规划与低层控制的统一
建立针对无人机 4-DoF 动作空间的评估指标，包括改进的 NDTW 指标（同时考虑空间坐标和偏航角对齐）
系统评估了 7 个基线模型，揭示了当前方法在室内无人机导航任务上的显著性能差距

Card 04 方法描述

方法描述

数据收集：基于 Habitat 模拟器，从 Matterport3D、Gibson、HM3D、Replica 中筛选 1,075 个高质量场景；移除导航网格约束，定义 4-DoF 动作空间（前后移动、垂直升降、左右平移、偏航旋转）
指令生成：采用 GPT-4o 多阶段流水线——提取关键帧（基于运动变化阈值）→ 生成图像描述（位置+多尺度物体描述）→ 组合生成完整导航指令
IndoorUAV-Agent 架构：

- 短程 VLA 任务：直接微调 π₀ 模型，预测未来 h 步的连续状态序列（3D 坐标+偏航角）

- 长程 VLN 任务：先用 GPT-4o 将复杂指令分解为 n 个 VLA 式子指令，再用 π₀ 顺序执行；采用前一子任务的最终观测作为下一子任务的初始参考帧，保证时序连续性

动作空间设计：双尺度离散动作（如 fly_forward_small/large 分别为 0.15m/0.9m，turn_left_small/large 分别为 3°/15°），适应室内精细操控需求

Card 05 数据集与资源

数据集与资源

数据集：IndoorUAV-VLN（16,040 条长程轨迹，平均 21.6 米，112 词指令）和 IndoorUAV-VLA（34,925 条短程轨迹，平均 2.2 米，14.5 词指令）
环境来源：Matterport3D、Gibson、HM3D、Replica，共 1,075 个场景
训练资源：

- Seq2Seq/CMA：1 × RTX 2080 Ti

- OpenVLA：1 × A6000

- π₀/π₀-FAST：2 × A6000

- NaVid：4 × A6000

LoRA 微调：Rank 32，学习率 5e-4（OpenVLA）或 5e-5（π₀）

Card 06 评估与结果

评估与结果

评估指标：

- Success Rate (SR)：VLA 任务要求终点距离 < 0.5m 且偏航差 < π/4；VLN 任务要求 < 2m

- NDTW：VLA 任务联合空间 NDTW 和旋转 NDTW（自适应加权）；VLN 任务仅用空间 NDTW

- Navigation Error (NE)：终点与目标位置距离

- Oracle Success Rate (OSR)：轨迹任意点满足成功条件

关键实验结果：

- IndoorUAV-VLA（表 2）：微调 π₀ 取得最佳性能，SR 27.16%，NDTW 9.44%；在简单任务上达 46.58% SR，显著优于传统 VLN 模型（Seq2Seq 1.33%，CMA 0.99%）和其他 VLA 模型（OpenVLA 7.81%，NaVid 15.82%）

- IndoorUAV-VLN（表 3）：IndoorUAV-Agent 在所有指标上领先，Seen 环境 SR 7.29% / NDTW 17.19%，Unseen 环境 SR 5.06% / NDTW 15.65%；相比无任务分解的 π₀ 基线，SR 提升 +4.37%（Seen）和 +2.23%（Unseen）

- 发现：NaVid 虽 OSR 较高（14.70%/16.21%），但因难以预测 stop 动作导致 SR 极低（0.75%/0.84%），揭示长程导航中终止判断的关键挑战