一眼看懂
封面预览
提出AIR-VLA,首个专门为空中操纵系统(Aerial Manipulation Systems, AMS)设计的视觉-语言-动作(VLA)…
- 提出AIR-VLA,首个专门为空中操纵系统(Aerial Manipulation Systems, AMS)设计的视觉-语言-动作(VLA)…
- 解决现有VLA研究局限于地面移动机械手的问题,构建了包含3000个高质量手动遥操作演示的多模态数据集,覆盖基础操作、对象与空间理解、语义推理和…
- 系统评估了主流VLA和VLM模型在3D空中操纵任务中的能力边界,验证了VLA范式迁移到空中平台的可行性
Card 01
研究单位
研究单位
- 作者列表:Jianli Sun, Bin Tian, Qiyao Zhang, Chengxiang Li, Zihan Song, Zhiyong Cui, Yisheng Lv, Yonglin Tian
- 论文领域:Machine Learning, ICML, Aerial Manipulation, Vision-Language-Action Models
- GitHub资源:https://github.com/SpencerSon2001/AIR-VLA
Card 02
论文概述
论文概述
- 提出AIR-VLA,首个专门为空中操纵系统(Aerial Manipulation Systems, AMS)设计的视觉-语言-动作(VLA)基准测试
- 解决现有VLA研究局限于地面移动机械手的问题,构建了包含3000个高质量手动遥操作演示的多模态数据集,覆盖基础操作、对象与空间理解、语义推理和长程规划任务
- 系统评估了主流VLA和VLM模型在3D空中操纵任务中的能力边界,验证了VLA范式迁移到空中平台的可行性
Card 03
核心贡献
核心贡献
- 首个空中操纵VLA基准测试:填补了3D空中操纵领域评估框架的空白,为社区提供标准化研究工具,设计了多套感知信息丰富(RGB、深度、本体感受)和语言指令多样化的数据集
- 定制化评估指标:针对空中操纵特性(UAV与机械手紧密协调、任务长程多步),引入多维评估指标,包括基座定位精度、机械臂效能、环境安全性和任务进展
- 综合基线分析:量化当前主流VLA模型在空中任务上的性能及VLM的高级规划能力,揭示从地面到空中平台迁移过程中的关键挑战
Card 04
方法描述
方法描述
- 模拟环境:基于NVIDIA Isaac Sim构建,使用PhysX 5引擎和光线追踪实现流体动力扰动到光照反射的真实模拟
- 机器人系统:四旋翼UAV配备7-DoF Franka Panda机械手,UAV控制空间为位置变化和偏航旋转,机械手控制空间包含7个关节姿态和夹爪状态,构成12-DoF高冗余强耦合控制问题
- 数据采集:采用人类遥操作而非脚本生成,使用游戏手柄接口生成任务导向轨迹,传感器配置包括UAV前下RGB-D相机、机械手腕部RGB-D相机和第三人称视角相机
Card 05
数据集与资源
数据集与资源
- 数据集规模:3000个高质量手动遥操作空中操纵 episodes
- 任务套件:Base Manipulation、Object & Spatial、Semantic Understanding、Long-Horizon四个核心任务套件
- 平均任务长度:约475时间步,显著超出传统基准测试
- 环境多样性:住宅、工业、户外不同环境,不同光照条件
- 评估VLA模型:π₀、π₀.₅、π₀-FAST、ACT、Diffusion Policy
- 评估VLM模型:Qwen3-VL-8B、Qwen2.5-VL-7B、GLM-4V-9B、InternVL3.5-8B、Molmo-7B、LLaVA-OV
Card 06
评估与结果
评估与结果
- VLA实验结果:π₀.₅和π₀表现最佳,总体加权得分分别达42.0和34.5,显著优于ACT和Diffusion Policy基线(13.9);π₀.₅在UAV扰动下性能下降较小(总下降1.0),但缺失第三人称视角时性能下降7.5
- VLA关键发现:模型在UAV运动控制上优于机械手操作;存在空间定位失败问题(识别正确对象类别但在错误位置操作);长程任务中子任务性能递减
- VLM实验结果:Qwen3-VL-8B在四个维度(规划、空间导航、对象定位、技能选择)均达最优,总体平均得分82.4;所有模型在空间导航维度表现最差,是端到端规划成功率的主要瓶颈
- VLM关键发现:显式与隐式指令性能差距小,VLM语义泛化能力强;长程任务中无显著性能衰减;视觉干扰场景下对象定位指标略有下降