提出 IndoorUAV,首个专门针对室内无人机(UAV)视觉语言导航(VLN)的大规模基准测试,填补了地面机器人与室外无人机导航之间的研究空白
- 提出 IndoorUAV,首个专门针对室内无人机(UAV)视觉语言导航(VLN)的大规模基准测试,填补了地面机器人与室外无人机导航之间的研究空白
- 构建了包含 IndoorUAV-VLN(长程导航,16,000+ 轨迹)和 IndoorUAV-VLA(短程控制,34,925+ 轨迹)两个子…
- 针对室内无人机导航的独特挑战:三维自由运动、密集障碍物、精细空间推理和实时避障
研究单位
- 北京大学(作者 Xu Liu, Yu Liu, Hanshuo Qiu, Yang Qirong, Zhouhui Lian 所属机构,其中 Zhouhui Lian 为通讯作者)
- 北京邮电大学(Zhouhui Lian 的第二所属机构)
论文概述
- 提出 IndoorUAV,首个专门针对室内无人机(UAV)视觉语言导航(VLN)的大规模基准测试,填补了地面机器人与室外无人机导航之间的研究空白
- 构建了包含 IndoorUAV-VLN(长程导航,16,000+ 轨迹)和 IndoorUAV-VLA(短程控制,34,925+ 轨迹)两个子集的数据集,支持从高层规划到低层控制的全面研究
- 针对室内无人机导航的独特挑战:三维自由运动、密集障碍物、精细空间推理和实时避障
核心贡献
- 发布首个专门针对室内无人机视觉语言导航的大规模基准 IndoorUAV,包含 50,965 条高质量轨迹,覆盖 1,075 个多样化室内场景
- 开发自动化数据收集与标注流程,基于 GPT-4o 生成多粒度自然语言指令,并设计轨迹增强策略(反转、重组)提升数据多样性
- 提出 IndoorUAV-Agent,采用任务分解架构:用 LLM 将长程指令分解为短程子任务,再由 VLA 模型(π₀)顺序执行,实现高层规划与低层控制的统一
- 建立针对无人机 4-DoF 动作空间的评估指标,包括改进的 NDTW 指标(同时考虑空间坐标和偏航角对齐)
- 系统评估了 7 个基线模型,揭示了当前方法在室内无人机导航任务上的显著性能差距
方法描述
- 数据收集:基于 Habitat 模拟器,从 Matterport3D、Gibson、HM3D、Replica 中筛选 1,075 个高质量场景;移除导航网格约束,定义 4-DoF 动作空间(前后移动、垂直升降、左右平移、偏航旋转)
- 指令生成:采用 GPT-4o 多阶段流水线——提取关键帧(基于运动变化阈值)→ 生成图像描述(位置+多尺度物体描述)→ 组合生成完整导航指令
- IndoorUAV-Agent 架构:
- 短程 VLA 任务:直接微调 π₀ 模型,预测未来 h 步的连续状态序列(3D 坐标+偏航角)
- 长程 VLN 任务:先用 GPT-4o 将复杂指令分解为 n 个 VLA 式子指令,再用 π₀ 顺序执行;采用前一子任务的最终观测作为下一子任务的初始参考帧,保证时序连续性
- 动作空间设计:双尺度离散动作(如 fly_forward_small/large 分别为 0.15m/0.9m,turn_left_small/large 分别为 3°/15°),适应室内精细操控需求
数据集与资源
- 数据集:IndoorUAV-VLN(16,040 条长程轨迹,平均 21.6 米,112 词指令)和 IndoorUAV-VLA(34,925 条短程轨迹,平均 2.2 米,14.5 词指令)
- 环境来源:Matterport3D、Gibson、HM3D、Replica,共 1,075 个场景
- 训练资源:
- Seq2Seq/CMA:1 × RTX 2080 Ti
- OpenVLA:1 × A6000
- π₀/π₀-FAST:2 × A6000
- NaVid:4 × A6000
- LoRA 微调:Rank 32,学习率 5e-4(OpenVLA)或 5e-5(π₀)
评估与结果
- 评估指标:
- Success Rate (SR):VLA 任务要求终点距离 < 0.5m 且偏航差 < π/4;VLN 任务要求 < 2m
- NDTW:VLA 任务联合空间 NDTW 和旋转 NDTW(自适应加权);VLN 任务仅用空间 NDTW
- Navigation Error (NE):终点与目标位置距离
- Oracle Success Rate (OSR):轨迹任意点满足成功条件
- 关键实验结果:
- IndoorUAV-VLA(表 2):微调 π₀ 取得最佳性能,SR 27.16%,NDTW 9.44%;在简单任务上达 46.58% SR,显著优于传统 VLN 模型(Seq2Seq 1.33%,CMA 0.99%)和其他 VLA 模型(OpenVLA 7.81%,NaVid 15.82%)
- IndoorUAV-VLN(表 3):IndoorUAV-Agent 在所有指标上领先,Seen 环境 SR 7.29% / NDTW 17.19%,Unseen 环境 SR 5.06% / NDTW 15.65%;相比无任务分解的 π₀ 基线,SR 提升 +4.37%(Seen)和 +2.23%(Unseen)
- 发现:NaVid 虽 OSR 较高(14.70%/16.21%),但因难以预测 stop 动作导致 SR 极低(0.75%/0.84%),揭示长程导航中终止判断的关键挑战