返回列表 VLA / Vision-Language-Action 每日论文卡
$π$, But Make It Fly: Physics-Guided Transfer of VLA Models to Aerial Manipulation
论文研究了将预训练的视觉-语言-动作(VLA)基础模型(如 π₀)从固定基座机械臂迁移到空中操作平台的可行性与方法。

论文详情

$π$, But Make It Fly: Physics-Guided Transfer of VLA Models to Aerial Manipulation

2026-03-26 · 原文 · 翻译 · 2603.25038

论文研究了将预训练的视觉-语言-动作(VLA)基础模型(如 π₀)从固定基座机械臂迁移到空中操作平台的可行性与方法。 核心挑战在于地面准静态操作与飞行平台欠驱动、高动态特性之间的根本性“动力学差距”。 研究目标是通过数据增强和物理感知引导,使预训练的VLA模型能够执行空中抓取、导航及两者的组合任务。

4 分钟读完 6 张阅读卡 Stanford University (根据致谢推断)
一眼看懂 封面预览

论文研究了将预训练的视觉-语言-动作(VLA)基础模型(如 π₀)从固定基座机械臂迁移到空中操作平台的可行性与方法。

  • 论文研究了将预训练的视觉-语言-动作(VLA)基础模型(如 π₀)从固定基座机械臂迁移到空中操作平台的可行性与方法。
  • 核心挑战在于地面准静态操作与飞行平台欠驱动、高动态特性之间的根本性“动力学差距”。
  • 研究目标是通过数据增强和物理感知引导,使预训练的VLA模型能够执行空中抓取、导航及两者的组合任务。
Card 01 研究单位

研究单位

  • Stanford University (根据致谢推断)
Card 02 论文概述

论文概述

  • 论文研究了将预训练的视觉-语言-动作(VLA)基础模型(如 π₀)从固定基座机械臂迁移到空中操作平台的可行性与方法。
  • 核心挑战在于地面准静态操作与飞行平台欠驱动、高动态特性之间的根本性“动力学差距”。
  • 研究目标是通过数据增强和物理感知引导,使预训练的VLA模型能够执行空中抓取、导航及两者的组合任务。
Card 03 核心贡献

核心贡献

  • 提出 AirVLA,首个在空中操作平台上微调并部署预训练VLA模型的系统性演示。
  • 收集并开源了270个空中操作与导航遥操作演示数据集。
  • 利用 高斯溅射 流水线合成50个导航训练样本,使导航任务成功率相对仅用遥操作数据提升约20%。
  • 引入 有效载荷感知引导 机制,在推理时动态补偿抓取物体的质量,将抓取-放置任务成功率从23%提升至50%。
Card 04 方法描述

方法描述

  • 基础模型采用 π₀,一种基于流匹配的视觉-语言-动作模型。
  • 核心创新一:提出 物理感知引导,在实时分块采样过程中,通过梯度修正项注入有效载荷约束,无需重训练模型即可补偿空中抓取引起的垂直下沉。
  • 核心创新二:构建 高斯溅射数据流水线,通过3D场景重建、抓取器分割合成及域随机化,从少量种子飞行中高效生成多样化的物理可行训练轨迹。
  • 系统集成:基于 ModalAI Starling 2 Max 无人机、定制UMI风格夹持器和多摄像头,将无人机视为“飞行末端执行器”。
Card 05 数据集与资源

数据集与资源

  • 遥操作演示数据集:270个空中操作与导航示例。
  • 合成导航数据:通过高斯溅射流水线生成50个修正性导航轨迹。
  • 基础模型π₀(参数量未明确提及,属于基础规模VLA模型)。
  • 硬件平台ModalAI Starling 2 Max 四旋翼无人机,搭载VOXL 2机载计算机。
Card 06 评估与结果

评估与结果

  • 评估环境:460次真实世界飞行试验,包含企鹅抓取、门导航及“导航-然后-抓取”组合任务。
  • 主要评估指标:任务成功率(分为各子阶段的条件成功率)。
  • 关键结果

- 使用合成数据微调后,导航任务(过门)成功率从81%提升至 100%

- 引入有效载荷感知引导后,抓取-放置任务的放置阶段成功率从23.5%提升至 50%

- 在组合任务中,整体成功率(完成所有阶段)达到 62.5%,展示了零样本任务组合能力。

- 相较于从零训练的 ACTDiffusion Policy,基于预训练VLA的方法在所有任务上表现显著更优。