一眼看懂
封面预览
该论文系统地研究了视觉-语言-动作(VLA)模型中的任务规划范式和表示方法,旨在解决现有方法在网络架构、规划范式、表示和训练数据方面的差异问题
- 该论文系统地研究了视觉-语言-动作(VLA)模型中的任务规划范式和表示方法,旨在解决现有方法在网络架构、规划范式、表示和训练数据方面的差异问题
- 论文提出 VLA-OS 统一架构系列,支持三种主流 VLA 范式:ActionOnly-VLA、Integrated-VLA 和 Hierar…
- 研究回答了五个核心问题:任务规划的表示选择、范式选择、瓶颈分析、可扩展性与预训练效果、泛化与持续学习能力
Card 01
研究单位
研究单位
- National University of Singapore (新加坡国立大学) - Chongkai Gao, Zixuan Liu, Zhenghao Chi, Yiwen Hou, Yuxuan Zhang, Yudi Lin, Lin Shao
- Fudan University (复旦大学) - Junshan Huang
- Tsinghua University (清华大学) - Xin Fei, Zhirui Fang
- Nanyang Technological University (南洋理工大学) - Zeyu Jiang
Card 02
论文概述
论文概述
- 该论文系统地研究了视觉-语言-动作(VLA)模型中的任务规划范式和表示方法,旨在解决现有方法在网络架构、规划范式、表示和训练数据方面的差异问题
- 论文提出 VLA-OS 统一架构系列,支持三种主流 VLA 范式:ActionOnly-VLA、Integrated-VLA 和 Hierarchical-VLA,通过控制变量实验比较不同范式的优劣
- 研究回答了五个核心问题:任务规划的表示选择、范式选择、瓶颈分析、可扩展性与预训练效果、泛化与持续学习能力
Card 03
核心贡献
核心贡献
- 提出 VLA-OS 模型系列,一个统一的 VLA 架构家族,支持可插拔的规划头和不同规划范式,包含 VLA-OS-A、 VLA-OS-I(隐式/显式)和 VLA-OS-H 三种变体
- 设计全面的控制实验,在多种物体类别(刚体/可变形)、视觉模态(2D/3D)、环境(仿真/真实世界)和末端执行器(夹爪/灵巧手)上测试
- 发现 视觉 grounded 规划表示(视觉推理、图像前瞻规划)优于语言规划表示,推理速度更快、训练成本更低
- 发现 Hierarchical-VLA 范式 在任务性能、泛化、可扩展性、持续学习和规划头预训练方面总体表现最优,但训练和推理成本较高
Card 04
方法描述
方法描述
- VLA-OS-A:端到端动作生成模型,使用 Qwen2.5 作为 LLM 主干,结合 DINOV2 + SigLIP 双视觉编码器,动作头采用块级因果注意力机制
- VLA-OS-I:集成 VLA 范式,包含隐式规划(VLA-OS-I-I,作为辅助损失训练)和显式规划(VLA-OS-I-E,推理时先生成规划再生成动作)
- VLA-OS-H:分层 VLA 范式,使用两个独立网络分别进行任务规划和策略学习,动作头可接收原始视觉观测、语言指令和规划表示作为输入
- 三种规划表示:语言推理(8 种关键信息)、视觉推理(位置 token 表示包围盒、流场、 affordance)、图像前瞻推理(未来 K 步的第三人称视角图像)
Card 05
数据集与资源
数据集与资源
- 数据集:LIBERO(2D 刚体操作)、THE COLOSSEUM(3D 泛化)、FurnitureBench(长程任务)、DexArt(灵巧手操作)、PerAct2(双臂操作)、真实世界可变形物体操作数据集
- 模型规模:基于 Qwen2.5 LLM 系列,提供 0.5B、1.5B、3B、7B 四种参数规模的预训练检查点
- 训练资源:8 × NVIDIA A100 80G GPUs
Card 06
评估与结果
评估与结果
- 主要评估指标:任务成功率(Success Rate)
- 关键实验结果:
- VLA-OS-A-S 在 LIBERO 基准上达到 85.6% 平均成功率,与 π₀-FAST 相当(+0.1%),优于 Diffusion Policy(+13.2%)和 OpenVLA(+9.1%)
- 隐式规划可带来正向性能提升,显式规划因规划累积误差导致性能下降
- 视觉规划(V)和图像前瞻规划(IF)优于语言规划(L),VLA-OS-I-I 使用 L+IF 达到 73.3%
- Hierarchical-VLA 在多规划表示组合下表现最佳,VLA-OS-H 使用 L+V+IF 达到 74.2%
- 在 COLOSSEUM、Deformable、FurnitureBench、DexArt、PerAct2 等多个基准上,VLA-OS-I 和 VLA-OS-H 均优于 VLA-OS-A
- 泛化测试中,VLA-OS-H 达到 7.4%(+1.3%),优于 VLA-OS-I 的 6.2% 和 VLA-OS-A 的 6.1%
- 规划头预训练可带来约 5.6-5.8% 的性能提升