提出AIR-VLA，首个专门为空中操纵系统（Aerial Manipulation Systems, AMS）设计的视觉-语言-动作（VLA）…

论文详情

AIR-VLA: Vision-Language-Action Systems for Aerial Manipulation

2026-01-29 · 原文 · 翻译 · 2601.21602

提出AIR-VLA，首个专门为空中操纵系统（Aerial Manipulation Systems, AMS）设计的视觉-语言-动作（VLA）基准测试解决现有VLA研究局限于地面移动机械手的问题，构建了包含3000个高质量手动遥操作演示的多模态数据集，覆盖基础操作、对象与空间理解、语义推理和长程规划任务系统评估了主流VLA和VLM模型在3D空中操纵任务中的能力边界，验证了VLA范式迁移到空中平台的可行性

6 分钟读完 6 张阅读卡作者列表：Jianli Sun, Bin Tian, Qiyao Zhang, Chengxiang…

一眼看懂封面预览

提出AIR-VLA，首个专门为空中操纵系统（Aerial Manipulation Systems, AMS）设计的视觉-语言-动作（VLA）…

提出AIR-VLA，首个专门为空中操纵系统（Aerial Manipulation Systems, AMS）设计的视觉-语言-动作（VLA）…
解决现有VLA研究局限于地面移动机械手的问题，构建了包含3000个高质量手动遥操作演示的多模态数据集，覆盖基础操作、对象与空间理解、语义推理和…
系统评估了主流VLA和VLM模型在3D空中操纵任务中的能力边界，验证了VLA范式迁移到空中平台的可行性

Card 01 研究单位

研究单位

作者列表：Jianli Sun, Bin Tian, Qiyao Zhang, Chengxiang Li, Zihan Song, Zhiyong Cui, Yisheng Lv, Yonglin Tian
论文领域：Machine Learning, ICML, Aerial Manipulation, Vision-Language-Action Models
GitHub资源：https://github.com/SpencerSon2001/AIR-VLA

Card 02 论文概述

论文概述

提出AIR-VLA，首个专门为空中操纵系统（Aerial Manipulation Systems, AMS）设计的视觉-语言-动作（VLA）基准测试
解决现有VLA研究局限于地面移动机械手的问题，构建了包含3000个高质量手动遥操作演示的多模态数据集，覆盖基础操作、对象与空间理解、语义推理和长程规划任务
系统评估了主流VLA和VLM模型在3D空中操纵任务中的能力边界，验证了VLA范式迁移到空中平台的可行性

Card 03 核心贡献

核心贡献

首个空中操纵VLA基准测试：填补了3D空中操纵领域评估框架的空白，为社区提供标准化研究工具，设计了多套感知信息丰富（RGB、深度、本体感受）和语言指令多样化的数据集
定制化评估指标：针对空中操纵特性（UAV与机械手紧密协调、任务长程多步），引入多维评估指标，包括基座定位精度、机械臂效能、环境安全性和任务进展
综合基线分析：量化当前主流VLA模型在空中任务上的性能及VLM的高级规划能力，揭示从地面到空中平台迁移过程中的关键挑战

Card 04 方法描述

方法描述

模拟环境：基于NVIDIA Isaac Sim构建，使用PhysX 5引擎和光线追踪实现流体动力扰动到光照反射的真实模拟
机器人系统：四旋翼UAV配备7-DoF Franka Panda机械手，UAV控制空间为位置变化和偏航旋转，机械手控制空间包含7个关节姿态和夹爪状态，构成12-DoF高冗余强耦合控制问题
数据采集：采用人类遥操作而非脚本生成，使用游戏手柄接口生成任务导向轨迹，传感器配置包括UAV前下RGB-D相机、机械手腕部RGB-D相机和第三人称视角相机

Card 05 数据集与资源

数据集与资源

数据集规模：3000个高质量手动遥操作空中操纵 episodes
任务套件：Base Manipulation、Object & Spatial、Semantic Understanding、Long-Horizon四个核心任务套件
平均任务长度：约475时间步，显著超出传统基准测试
环境多样性：住宅、工业、户外不同环境，不同光照条件
评估VLA模型：π₀、π₀.₅、π₀-FAST、ACT、Diffusion Policy
评估VLM模型：Qwen3-VL-8B、Qwen2.5-VL-7B、GLM-4V-9B、InternVL3.5-8B、Molmo-7B、LLaVA-OV

Card 06 评估与结果

评估与结果

VLA实验结果：π₀.₅和π₀表现最佳，总体加权得分分别达42.0和34.5，显著优于ACT和Diffusion Policy基线（13.9）；π₀.₅在UAV扰动下性能下降较小（总下降1.0），但缺失第三人称视角时性能下降7.5
VLA关键发现：模型在UAV运动控制上优于机械手操作；存在空间定位失败问题（识别正确对象类别但在错误位置操作）；长程任务中子任务性能递减
VLM实验结果：Qwen3-VL-8B在四个维度（规划、空间导航、对象定位、技能选择）均达最优，总体平均得分82.4；所有模型在空间导航维度表现最差，是端到端规划成功率的主要瓶颈
VLM关键发现：显式与隐式指令性能差距小，VLM语义泛化能力强；长程任务中无显著性能衰减；视觉干扰场景下对象定位指标略有下降