UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning

论文详情

UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning

2025-05-21 · 原文 · 翻译 · 2505.15725

论文提出了 Flying-on-a-Word (Flow) 任务，专注于语言引导下的无人机细粒度、短程轨迹控制，区别于传统长程导航。核心目标是实现 UAV模仿学习，使无人机通过模仿专家飞行员的轨迹来执行原子语言指令。解决了语言引导的无人机低层控制这一关键但未被充分探索的问题，并提供了首个真实世界基准。

4 分钟读完 6 张阅读卡北京航空航天大学人工智能研究院

一眼看懂封面预览

论文提出了 Flying-on-a-Word (Flow) 任务，专注于语言引导下的无人机细粒度、短程轨迹控制，区别于传统长程导航。

论文提出了 Flying-on-a-Word (Flow) 任务，专注于语言引导下的无人机细粒度、短程轨迹控制，区别于传统长程导航。
核心目标是实现 UAV模仿学习，使无人机通过模仿专家飞行员的轨迹来执行原子语言指令。
解决了语言引导的无人机低层控制这一关键但未被充分探索的问题，并提供了首个真实世界基准。

Card 01 研究单位

研究单位

北京航空航天大学人工智能研究院
新加坡国立大学
香港中文大学 MMLab
北京航空航天大学杭州国际创新研究院

Card 02 论文概述

论文概述

论文提出了 Flying-on-a-Word (Flow) 任务，专注于语言引导下的无人机细粒度、短程轨迹控制，区别于传统长程导航。
核心目标是实现 UAV模仿学习，使无人机通过模仿专家飞行员的轨迹来执行原子语言指令。
解决了语言引导的无人机低层控制这一关键但未被充分探索的问题，并提供了首个真实世界基准。

Card 03 核心贡献

核心贡献

定义了 Flow 任务范式，强调运动意图理解与空间上下文接地两大核心能力。
构建了首个大规模、真实的语言-视觉-动作多模态数据集 UAV-Flow，包含30,692条轨迹，支持无Sim-to-Real差距的直接部署。
提出了 地面-无人机协同部署框架，通过前瞻机制解决实时控制中的感知-动作延迟问题。
建立了包含仿真数据集 UAV-Flow-Sim 与闭环评估指标的完整基准套件，用于系统性模型评测。
首次在开放环境中成功部署了 VLA 模型 用于语言引导的无人机控制，验证了方法的实用性。

Card 04 方法描述

方法描述

采用 模仿学习 框架，将语言指令、无人机状态和第一视角视觉观测映射到低层控制动作。
数据收集采用专业飞行员操作，记录同步的车载视频与 6-DoF 状态轨迹，并进行时间戳对齐与局部坐标系转换。
语言指令标注包含固定词汇命令集，并利用 LLM 扩展为开放词汇命令集以增强多样性。
部署框架采用 地面-无人机协作 策略，无人机通过 RTSP 和 MAVROS 传输数据至地面站进行模型推理，并返回控制命令。

Card 05 数据集与资源

数据集与资源

UAV-Flow 真实世界数据集：包含 30,692 条飞行轨迹，涵盖8种主要运动类型，采集自三个大学校园，总面积 5.02 km²。
UAV-Flow-Sim 仿真数据集：包含 10,109 条轨迹，用于模型验证与分析。
使用 DJI Mavic 3T RTK 等商用平台进行数据采集，配备 4K 摄像头 与 RTK GPS 模块。
模型训练使用了 RTX 4090 和 A100 GPU，具体配置见附录。

Card 06 评估与结果

评估与结果

在 UAV-Flow-Sim 闭环仿真环境中对 VLN 与 VLA 两类模型进行了基准测试。
主要评估指标为 成功率 与 归一化动态时间规整。
实验结果表明，VLA 模型 (如 OpenVLA-UAV, Pi-0-UAV) 在细粒度控制任务上显著优于传统 VLN 模型，展现出更强的视觉理解与运动执行能力。
成功在真实无人机上部署了 Pi-0-UAV 模型，并展示了稳定、延迟可控的连续飞行控制效果。