VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models

一眼看懂封面预览

该论文系统地研究了视觉-语言-动作（VLA）模型中的任务规划范式和表示方法，旨在解决现有方法在网络架构、规划范式、表示和训练数据方面的差异问题

Card 01 研究单位

研究单位

National University of Singapore (新加坡国立大学) - Chongkai Gao, Zixuan Liu, Zhenghao Chi, Yiwen Hou, Yuxuan Zhang, Yudi Lin, Lin Shao
Fudan University (复旦大学) - Junshan Huang
Tsinghua University (清华大学) - Xin Fei, Zhirui Fang
Nanyang Technological University (南洋理工大学) - Zeyu Jiang

Card 02 论文概述

该论文系统地研究了视觉-语言-动作（VLA）模型中的任务规划范式和表示方法，旨在解决现有方法在网络架构、规划范式、表示和训练数据方面的差异问题
论文提出 VLA-OS 统一架构系列，支持三种主流 VLA 范式：ActionOnly-VLA、Integrated-VLA 和 Hierarchical-VLA，通过控制变量实验比较不同范式的优劣
研究回答了五个核心问题：任务规划的表示选择、范式选择、瓶颈分析、可扩展性与预训练效果、泛化与持续学习能力

Card 03 核心贡献

提出 VLA-OS 模型系列，一个统一的 VLA 架构家族，支持可插拔的规划头和不同规划范式，包含 VLA-OS-A、 VLA-OS-I（隐式/显式）和 VLA-OS-H 三种变体
设计全面的控制实验，在多种物体类别（刚体/可变形）、视觉模态（2D/3D）、环境（仿真/真实世界）和末端执行器（夹爪/灵巧手）上测试
发现 视觉 grounded 规划表示（视觉推理、图像前瞻规划）优于语言规划表示，推理速度更快、训练成本更低
发现 Hierarchical-VLA 范式 在任务性能、泛化、可扩展性、持续学习和规划头预训练方面总体表现最优，但训练和推理成本较高

Card 04 方法描述

VLA-OS-A：端到端动作生成模型，使用 Qwen2.5 作为 LLM 主干，结合 DINOV2 + SigLIP 双视觉编码器，动作头采用块级因果注意力机制
VLA-OS-I：集成 VLA 范式，包含隐式规划（VLA-OS-I-I，作为辅助损失训练）和显式规划（VLA-OS-I-E，推理时先生成规划再生成动作）
VLA-OS-H：分层 VLA 范式，使用两个独立网络分别进行任务规划和策略学习，动作头可接收原始视觉观测、语言指令和规划表示作为输入
三种规划表示：语言推理（8 种关键信息）、视觉推理（位置 token 表示包围盒、流场、 affordance）、图像前瞻推理（未来 K 步的第三人称视角图像）

Card 05 数据集与资源

数据集：LIBERO（2D 刚体操作）、THE COLOSSEUM（3D 泛化）、FurnitureBench（长程任务）、DexArt（灵巧手操作）、PerAct2（双臂操作）、真实世界可变形物体操作数据集
模型规模：基于 Qwen2.5 LLM 系列，提供 0.5B、1.5B、3B、7B 四种参数规模的预训练检查点
训练资源：8 × NVIDIA A100 80G GPUs

Card 06 评估与结果

- VLA-OS-A-S 在 LIBERO 基准上达到 85.6% 平均成功率，与 π₀-FAST 相当（+0.1%），优于 Diffusion Policy（+13.2%）和 OpenVLA（+9.1%）

- 隐式规划可带来正向性能提升，显式规划因规划累积误差导致性能下降

- 视觉规划（V）和图像前瞻规划（IF）优于语言规划（L），VLA-OS-I-I 使用 L+IF 达到 73.3%

- Hierarchical-VLA 在多规划表示组合下表现最佳，VLA-OS-H 使用 L+V+IF 达到 74.2%

- 在 COLOSSEUM、Deformable、FurnitureBench、DexArt、PerAct2 等多个基准上，VLA-OS-I 和 VLA-OS-H 均优于 VLA-OS-A

- 泛化测试中，VLA-OS-H 达到 7.4%（+1.3%），优于 VLA-OS-I 的 6.2% 和 VLA-OS-A 的 6.1%

- 规划头预训练可带来约 5.6-5.8% 的性能提升