返回列表 VLA / Vision-Language-Action 每日论文卡
IndoorUAV: Benchmarking Vision-Language UAV Navigation in Continuous Indoor Environments
提出 IndoorUAV,首个专门针对室内无人机(UAV)视觉语言导航(VLN)的大规模基准测试,填补了地面机器人与室外无人机导航之间的研究空白

论文详情

IndoorUAV: Benchmarking Vision-Language UAV Navigation in Continuous Indoor Environments

2025-12-22 · 原文 · 翻译 · 2512.19024

提出 IndoorUAV,首个专门针对室内无人机(UAV)视觉语言导航(VLN)的大规模基准测试,填补了地面机器人与室外无人机导航之间的研究空白 构建了包含 IndoorUAV-VLN(长程导航,16,000+ 轨迹)和 IndoorUAV-VLA(短程控制,34,925+ 轨迹)两个子集的数据集,支持从高层规划到低层控制的全面研究 针对室内无人机导航的独特挑战:三维自由运动、密集障碍物、精细空间推理和实时避障

8 分钟读完 6 张阅读卡 北京大学(作者 Xu Liu, Yu Liu, Hanshuo Qiu, Yang Qirong, Z…
一眼看懂 封面预览

提出 IndoorUAV,首个专门针对室内无人机(UAV)视觉语言导航(VLN)的大规模基准测试,填补了地面机器人与室外无人机导航之间的研究空白

  • 提出 IndoorUAV,首个专门针对室内无人机(UAV)视觉语言导航(VLN)的大规模基准测试,填补了地面机器人与室外无人机导航之间的研究空白
  • 构建了包含 IndoorUAV-VLN(长程导航,16,000+ 轨迹)和 IndoorUAV-VLA(短程控制,34,925+ 轨迹)两个子…
  • 针对室内无人机导航的独特挑战:三维自由运动、密集障碍物、精细空间推理和实时避障
Card 01 研究单位

研究单位

  • 北京大学(作者 Xu Liu, Yu Liu, Hanshuo Qiu, Yang Qirong, Zhouhui Lian 所属机构,其中 Zhouhui Lian 为通讯作者)
  • 北京邮电大学(Zhouhui Lian 的第二所属机构)
Card 02 论文概述

论文概述

  • 提出 IndoorUAV,首个专门针对室内无人机(UAV)视觉语言导航(VLN)的大规模基准测试,填补了地面机器人与室外无人机导航之间的研究空白
  • 构建了包含 IndoorUAV-VLN(长程导航,16,000+ 轨迹)和 IndoorUAV-VLA(短程控制,34,925+ 轨迹)两个子集的数据集,支持从高层规划到低层控制的全面研究
  • 针对室内无人机导航的独特挑战:三维自由运动、密集障碍物、精细空间推理和实时避障
Card 03 核心贡献

核心贡献

  • 发布首个专门针对室内无人机视觉语言导航的大规模基准 IndoorUAV,包含 50,965 条高质量轨迹,覆盖 1,075 个多样化室内场景
  • 开发自动化数据收集与标注流程,基于 GPT-4o 生成多粒度自然语言指令,并设计轨迹增强策略(反转、重组)提升数据多样性
  • 提出 IndoorUAV-Agent,采用任务分解架构:用 LLM 将长程指令分解为短程子任务,再由 VLA 模型(π₀)顺序执行,实现高层规划与低层控制的统一
  • 建立针对无人机 4-DoF 动作空间的评估指标,包括改进的 NDTW 指标(同时考虑空间坐标和偏航角对齐)
  • 系统评估了 7 个基线模型,揭示了当前方法在室内无人机导航任务上的显著性能差距
Card 04 方法描述

方法描述

  • 数据收集:基于 Habitat 模拟器,从 Matterport3D、Gibson、HM3D、Replica 中筛选 1,075 个高质量场景;移除导航网格约束,定义 4-DoF 动作空间(前后移动、垂直升降、左右平移、偏航旋转)
  • 指令生成:采用 GPT-4o 多阶段流水线——提取关键帧(基于运动变化阈值)→ 生成图像描述(位置+多尺度物体描述)→ 组合生成完整导航指令
  • IndoorUAV-Agent 架构

- 短程 VLA 任务:直接微调 π₀ 模型,预测未来 h 步的连续状态序列(3D 坐标+偏航角)

- 长程 VLN 任务:先用 GPT-4o 将复杂指令分解为 n 个 VLA 式子指令,再用 π₀ 顺序执行;采用前一子任务的最终观测作为下一子任务的初始参考帧,保证时序连续性

  • 动作空间设计:双尺度离散动作(如 fly_forward_small/large 分别为 0.15m/0.9m,turn_left_small/large 分别为 3°/15°),适应室内精细操控需求
Card 05 数据集与资源

数据集与资源

  • 数据集IndoorUAV-VLN(16,040 条长程轨迹,平均 21.6 米,112 词指令)和 IndoorUAV-VLA(34,925 条短程轨迹,平均 2.2 米,14.5 词指令)
  • 环境来源:Matterport3D、Gibson、HM3D、Replica,共 1,075 个场景
  • 训练资源

- Seq2Seq/CMA:1 × RTX 2080 Ti

- OpenVLA:1 × A6000

- π₀/π₀-FAST:2 × A6000

- NaVid:4 × A6000

  • LoRA 微调:Rank 32,学习率 5e-4(OpenVLA)或 5e-5(π₀)
Card 06 评估与结果

评估与结果

  • 评估指标

- Success Rate (SR):VLA 任务要求终点距离 < 0.5m 且偏航差 < π/4;VLN 任务要求 < 2m

- NDTW:VLA 任务联合空间 NDTW 和旋转 NDTW(自适应加权);VLN 任务仅用空间 NDTW

- Navigation Error (NE):终点与目标位置距离

- Oracle Success Rate (OSR):轨迹任意点满足成功条件

  • 关键实验结果

- IndoorUAV-VLA(表 2):微调 π₀ 取得最佳性能,SR 27.16%,NDTW 9.44%;在简单任务上达 46.58% SR,显著优于传统 VLN 模型(Seq2Seq 1.33%,CMA 0.99%)和其他 VLA 模型(OpenVLA 7.81%,NaVid 15.82%)

- IndoorUAV-VLN(表 3):IndoorUAV-Agent 在所有指标上领先,Seen 环境 SR 7.29% / NDTW 17.19%,Unseen 环境 SR 5.06% / NDTW 15.65%;相比无任务分解的 π₀ 基线,SR 提升 +4.37%(Seen)和 +2.23%(Unseen)

- 发现:NaVid 虽 OSR 较高(14.70%/16.21%),但因难以预测 stop 动作导致 SR 极低(0.75%/0.84%),揭示长程导航中终止判断的关键挑战