论文研究了将预训练的视觉-语言-动作（VLA）基础模型（如 π₀）从固定基座机械臂迁移到空中操作平台的可行性与方法。

论文详情

$π$, But Make It Fly: Physics-Guided Transfer of VLA Models to Aerial Manipulation

2026-03-26 · 原文 · 翻译 · 2603.25038

论文研究了将预训练的视觉-语言-动作（VLA）基础模型（如 π₀）从固定基座机械臂迁移到空中操作平台的可行性与方法。核心挑战在于地面准静态操作与飞行平台欠驱动、高动态特性之间的根本性“动力学差距”。研究目标是通过数据增强和物理感知引导，使预训练的VLA模型能够执行空中抓取、导航及两者的组合任务。

4 分钟读完 6 张阅读卡 Stanford University (根据致谢推断)

一眼看懂封面预览

论文研究了将预训练的视觉-语言-动作（VLA）基础模型（如 π₀）从固定基座机械臂迁移到空中操作平台的可行性与方法。

论文研究了将预训练的视觉-语言-动作（VLA）基础模型（如 π₀）从固定基座机械臂迁移到空中操作平台的可行性与方法。
核心挑战在于地面准静态操作与飞行平台欠驱动、高动态特性之间的根本性“动力学差距”。
研究目标是通过数据增强和物理感知引导，使预训练的VLA模型能够执行空中抓取、导航及两者的组合任务。

Card 01 研究单位

研究单位

Stanford University (根据致谢推断)

Card 02 论文概述

论文概述

论文研究了将预训练的视觉-语言-动作（VLA）基础模型（如 π₀）从固定基座机械臂迁移到空中操作平台的可行性与方法。
核心挑战在于地面准静态操作与飞行平台欠驱动、高动态特性之间的根本性“动力学差距”。
研究目标是通过数据增强和物理感知引导，使预训练的VLA模型能够执行空中抓取、导航及两者的组合任务。

Card 03 核心贡献

核心贡献

提出 AirVLA，首个在空中操作平台上微调并部署预训练VLA模型的系统性演示。
收集并开源了270个空中操作与导航遥操作演示数据集。
利用 高斯溅射 流水线合成50个导航训练样本，使导航任务成功率相对仅用遥操作数据提升约20%。
引入 有效载荷感知引导 机制，在推理时动态补偿抓取物体的质量，将抓取-放置任务成功率从23%提升至50%。

Card 04 方法描述

方法描述

基础模型采用 π₀，一种基于流匹配的视觉-语言-动作模型。
核心创新一：提出 物理感知引导，在实时分块采样过程中，通过梯度修正项注入有效载荷约束，无需重训练模型即可补偿空中抓取引起的垂直下沉。
核心创新二：构建 高斯溅射数据流水线，通过3D场景重建、抓取器分割合成及域随机化，从少量种子飞行中高效生成多样化的物理可行训练轨迹。
系统集成：基于 ModalAI Starling 2 Max 无人机、定制UMI风格夹持器和多摄像头，将无人机视为“飞行末端执行器”。

Card 05 数据集与资源

数据集与资源

遥操作演示数据集：270个空中操作与导航示例。
合成导航数据：通过高斯溅射流水线生成50个修正性导航轨迹。
基础模型：π₀（参数量未明确提及，属于基础规模VLA模型）。
硬件平台：ModalAI Starling 2 Max 四旋翼无人机，搭载VOXL 2机载计算机。

Card 06 评估与结果

评估与结果

评估环境：460次真实世界飞行试验，包含企鹅抓取、门导航及“导航-然后-抓取”组合任务。
主要评估指标：任务成功率（分为各子阶段的条件成功率）。
关键结果：

- 使用合成数据微调后，导航任务（过门）成功率从81%提升至 100%。

- 引入有效载荷感知引导后，抓取-放置任务的放置阶段成功率从23.5%提升至 50%。

- 在组合任务中，整体成功率（完成所有阶段）达到 62.5%，展示了零样本任务组合能力。

- 相较于从零训练的 ACT 和 Diffusion Policy，基于预训练VLA的方法在所有任务上表现显著更优。