返回列表 VLA / Vision-Language-Action 每日论文卡
AIR-VLA: Vision-Language-Action Systems for Aerial Manipulation
提出AIR-VLA,首个专门为空中操纵系统(Aerial Manipulation Systems, AMS)设计的视觉-语言-动作(VLA)…

论文详情

AIR-VLA: Vision-Language-Action Systems for Aerial Manipulation

2026-01-29 · 原文 · 翻译 · 2601.21602

提出AIR-VLA,首个专门为空中操纵系统(Aerial Manipulation Systems, AMS)设计的视觉-语言-动作(VLA)基准测试 解决现有VLA研究局限于地面移动机械手的问题,构建了包含3000个高质量手动遥操作演示的多模态数据集,覆盖基础操作、对象与空间理解、语义推理和长程规划任务 系统评估了主流VLA和VLM模型在3D空中操纵任务中的能力边界,验证了VLA范式迁移到空中平台的可行性

6 分钟读完 6 张阅读卡 作者列表:Jianli Sun, Bin Tian, Qiyao Zhang, Chengxiang…
一眼看懂 封面预览

提出AIR-VLA,首个专门为空中操纵系统(Aerial Manipulation Systems, AMS)设计的视觉-语言-动作(VLA)…

  • 提出AIR-VLA,首个专门为空中操纵系统(Aerial Manipulation Systems, AMS)设计的视觉-语言-动作(VLA)…
  • 解决现有VLA研究局限于地面移动机械手的问题,构建了包含3000个高质量手动遥操作演示的多模态数据集,覆盖基础操作、对象与空间理解、语义推理和…
  • 系统评估了主流VLA和VLM模型在3D空中操纵任务中的能力边界,验证了VLA范式迁移到空中平台的可行性
Card 01 研究单位

研究单位

  • 作者列表:Jianli Sun, Bin Tian, Qiyao Zhang, Chengxiang Li, Zihan Song, Zhiyong Cui, Yisheng Lv, Yonglin Tian
  • 论文领域:Machine Learning, ICML, Aerial Manipulation, Vision-Language-Action Models
  • GitHub资源:https://github.com/SpencerSon2001/AIR-VLA
Card 02 论文概述

论文概述

  • 提出AIR-VLA,首个专门为空中操纵系统(Aerial Manipulation Systems, AMS)设计的视觉-语言-动作(VLA)基准测试
  • 解决现有VLA研究局限于地面移动机械手的问题,构建了包含3000个高质量手动遥操作演示的多模态数据集,覆盖基础操作、对象与空间理解、语义推理和长程规划任务
  • 系统评估了主流VLA和VLM模型在3D空中操纵任务中的能力边界,验证了VLA范式迁移到空中平台的可行性
Card 03 核心贡献

核心贡献

  • 首个空中操纵VLA基准测试:填补了3D空中操纵领域评估框架的空白,为社区提供标准化研究工具,设计了多套感知信息丰富(RGB、深度、本体感受)和语言指令多样化的数据集
  • 定制化评估指标:针对空中操纵特性(UAV与机械手紧密协调、任务长程多步),引入多维评估指标,包括基座定位精度、机械臂效能、环境安全性和任务进展
  • 综合基线分析:量化当前主流VLA模型在空中任务上的性能及VLM的高级规划能力,揭示从地面到空中平台迁移过程中的关键挑战
Card 04 方法描述

方法描述

  • 模拟环境:基于NVIDIA Isaac Sim构建,使用PhysX 5引擎和光线追踪实现流体动力扰动到光照反射的真实模拟
  • 机器人系统:四旋翼UAV配备7-DoF Franka Panda机械手,UAV控制空间为位置变化和偏航旋转,机械手控制空间包含7个关节姿态和夹爪状态,构成12-DoF高冗余强耦合控制问题
  • 数据采集:采用人类遥操作而非脚本生成,使用游戏手柄接口生成任务导向轨迹,传感器配置包括UAV前下RGB-D相机、机械手腕部RGB-D相机和第三人称视角相机
Card 05 数据集与资源

数据集与资源

  • 数据集规模:3000个高质量手动遥操作空中操纵 episodes
  • 任务套件:Base Manipulation、Object & Spatial、Semantic Understanding、Long-Horizon四个核心任务套件
  • 平均任务长度:约475时间步,显著超出传统基准测试
  • 环境多样性:住宅、工业、户外不同环境,不同光照条件
  • 评估VLA模型:π₀、π₀.₅、π₀-FAST、ACT、Diffusion Policy
  • 评估VLM模型:Qwen3-VL-8B、Qwen2.5-VL-7B、GLM-4V-9B、InternVL3.5-8B、Molmo-7B、LLaVA-OV
Card 06 评估与结果

评估与结果

  • VLA实验结果:π₀.₅和π₀表现最佳,总体加权得分分别达42.0和34.5,显著优于ACT和Diffusion Policy基线(13.9);π₀.₅在UAV扰动下性能下降较小(总下降1.0),但缺失第三人称视角时性能下降7.5
  • VLA关键发现:模型在UAV运动控制上优于机械手操作;存在空间定位失败问题(识别正确对象类别但在错误位置操作);长程任务中子任务性能递减
  • VLM实验结果:Qwen3-VL-8B在四个维度(规划、空间导航、对象定位、技能选择)均达最优,总体平均得分82.4;所有模型在空间导航维度表现最差,是端到端规划成功率的主要瓶颈
  • VLM关键发现:显式与隐式指令性能差距小,VLM语义泛化能力强;长程任务中无显著性能衰减;视觉干扰场景下对象定位指标略有下降