返回列表 VLA / Vision-Language-Action 每日论文卡

VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models

论文详情

VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models

2025-06-21 · 原文 · 翻译 · 2506.17561

该论文系统地研究了视觉-语言-动作(VLA)模型中的任务规划范式和表示方法,旨在解决现有方法在网络架构、规划范式、表示和训练数据方面的差异问题 论文提出 VLA-OS 统一架构系列,支持三种主流 VLA 范式:ActionOnly-VLA、Integrated-VLA 和 Hierarchical-VLA,通过控制变量实验比较不同范式的优劣 研究回答了五个核心问题:任务规划的表示选择、范式选择、瓶颈分析、可扩展性与…

7 分钟读完 6 张阅读卡 National University of Singapore (新加坡国立大学) - Chongk…
一眼看懂 封面预览

该论文系统地研究了视觉-语言-动作(VLA)模型中的任务规划范式和表示方法,旨在解决现有方法在网络架构、规划范式、表示和训练数据方面的差异问题

  • 该论文系统地研究了视觉-语言-动作(VLA)模型中的任务规划范式和表示方法,旨在解决现有方法在网络架构、规划范式、表示和训练数据方面的差异问题
  • 论文提出 VLA-OS 统一架构系列,支持三种主流 VLA 范式:ActionOnly-VLA、Integrated-VLA 和 Hierar…
  • 研究回答了五个核心问题:任务规划的表示选择、范式选择、瓶颈分析、可扩展性与预训练效果、泛化与持续学习能力
Card 01 研究单位

研究单位

  • National University of Singapore (新加坡国立大学) - Chongkai Gao, Zixuan Liu, Zhenghao Chi, Yiwen Hou, Yuxuan Zhang, Yudi Lin, Lin Shao
  • Fudan University (复旦大学) - Junshan Huang
  • Tsinghua University (清华大学) - Xin Fei, Zhirui Fang
  • Nanyang Technological University (南洋理工大学) - Zeyu Jiang
Card 02 论文概述

论文概述

  • 该论文系统地研究了视觉-语言-动作(VLA)模型中的任务规划范式和表示方法,旨在解决现有方法在网络架构、规划范式、表示和训练数据方面的差异问题
  • 论文提出 VLA-OS 统一架构系列,支持三种主流 VLA 范式:ActionOnly-VLA、Integrated-VLA 和 Hierarchical-VLA,通过控制变量实验比较不同范式的优劣
  • 研究回答了五个核心问题:任务规划的表示选择、范式选择、瓶颈分析、可扩展性与预训练效果、泛化与持续学习能力
Card 03 核心贡献

核心贡献

  • 提出 VLA-OS 模型系列,一个统一的 VLA 架构家族,支持可插拔的规划头和不同规划范式,包含 VLA-OS-A、 VLA-OS-I(隐式/显式)和 VLA-OS-H 三种变体
  • 设计全面的控制实验,在多种物体类别(刚体/可变形)、视觉模态(2D/3D)、环境(仿真/真实世界)和末端执行器(夹爪/灵巧手)上测试
  • 发现 视觉 grounded 规划表示(视觉推理、图像前瞻规划)优于语言规划表示,推理速度更快、训练成本更低
  • 发现 Hierarchical-VLA 范式 在任务性能、泛化、可扩展性、持续学习和规划头预训练方面总体表现最优,但训练和推理成本较高
Card 04 方法描述

方法描述

  • VLA-OS-A:端到端动作生成模型,使用 Qwen2.5 作为 LLM 主干,结合 DINOV2 + SigLIP 双视觉编码器,动作头采用块级因果注意力机制
  • VLA-OS-I:集成 VLA 范式,包含隐式规划(VLA-OS-I-I,作为辅助损失训练)和显式规划(VLA-OS-I-E,推理时先生成规划再生成动作)
  • VLA-OS-H:分层 VLA 范式,使用两个独立网络分别进行任务规划和策略学习,动作头可接收原始视觉观测、语言指令和规划表示作为输入
  • 三种规划表示:语言推理(8 种关键信息)、视觉推理(位置 token 表示包围盒、流场、 affordance)、图像前瞻推理(未来 K 步的第三人称视角图像)
Card 05 数据集与资源

数据集与资源

  • 数据集:LIBERO(2D 刚体操作)、THE COLOSSEUM(3D 泛化)、FurnitureBench(长程任务)、DexArt(灵巧手操作)、PerAct2(双臂操作)、真实世界可变形物体操作数据集
  • 模型规模:基于 Qwen2.5 LLM 系列,提供 0.5B、1.5B、3B、7B 四种参数规模的预训练检查点
  • 训练资源:8 × NVIDIA A100 80G GPUs
Card 06 评估与结果

评估与结果

  • 主要评估指标:任务成功率(Success Rate)
  • 关键实验结果

- VLA-OS-A-S 在 LIBERO 基准上达到 85.6% 平均成功率,与 π₀-FAST 相当(+0.1%),优于 Diffusion Policy(+13.2%)和 OpenVLA(+9.1%)

- 隐式规划可带来正向性能提升,显式规划因规划累积误差导致性能下降

- 视觉规划(V)和图像前瞻规划(IF)优于语言规划(L),VLA-OS-I-I 使用 L+IF 达到 73.3%

- Hierarchical-VLA 在多规划表示组合下表现最佳,VLA-OS-H 使用 L+V+IF 达到 74.2%

- 在 COLOSSEUM、Deformable、FurnitureBench、DexArt、PerAct2 等多个基准上,VLA-OS-I 和 VLA-OS-H 均优于 VLA-OS-A

- 泛化测试中,VLA-OS-H 达到 7.4%(+1.3%),优于 VLA-OS-I 的 6.2% 和 VLA-OS-A 的 6.1%

- 规划头预训练可带来约 5.6-5.8% 的性能提升