返回列表 VLA / Vision-Language-Action 每日论文卡
OmniVLA-RL: A Vision-Language-Action Model with Spatial Understanding and Online RL
论文提出 OmniVLA-RL,一个具备空间理解能力和在线强化学习功能的视觉-语言-动作模型,旨在解决现有VLA模型在空间感知精度、多模态融合…

论文详情

OmniVLA-RL: A Vision-Language-Action Model with Spatial Understanding and Online RL

2026-04-20 · 原文 · 翻译 · 2604.17706

论文提出 OmniVLA-RL,一个具备空间理解能力和在线强化学习功能的视觉-语言-动作模型,旨在解决现有VLA模型在空间感知精度、多模态融合效果和强化学习稳定性方面的不足。 核心创新在于采用 Mixture-of-Transformers (MoT) 架构,协同整合推理、空间和动作专家,并引入 Flow-GSPO 方法以增强动作生成精度和训练鲁棒性。 论文通过在 LIBERO 和 LIBERO-Plus 基准上的…

6 分钟读完 6 张阅读卡 AI Lab, Country Garden Services
一眼看懂 封面预览

论文提出 OmniVLA-RL,一个具备空间理解能力和在线强化学习功能的视觉-语言-动作模型,旨在解决现有VLA模型在空间感知精度、多模态融合…

  • 论文提出 OmniVLA-RL,一个具备空间理解能力和在线强化学习功能的视觉-语言-动作模型,旨在解决现有VLA模型在空间感知精度、多模态融合…
  • 核心创新在于采用 Mixture-of-Transformers (MoT) 架构,协同整合推理、空间和动作专家,并引入 Flow-GSPO…
  • 论文通过在 LIBERO 和 LIBERO-Plus 基准上的广泛评估,证明了模型显著优于现有方法,克服了当前VLA模型的基本局限性。
Card 01 研究单位

研究单位

  • AI Lab, Country Garden Services
  • Omni AI
  • VBot
  • East China Normal University
Card 02 论文概述

论文概述

  • 论文提出 OmniVLA-RL,一个具备空间理解能力和在线强化学习功能的视觉-语言-动作模型,旨在解决现有VLA模型在空间感知精度、多模态融合效果和强化学习稳定性方面的不足。
  • 核心创新在于采用 Mixture-of-Transformers (MoT) 架构,协同整合推理、空间和动作专家,并引入 Flow-GSPO 方法以增强动作生成精度和训练鲁棒性。
  • 论文通过在 LIBEROLIBERO-Plus 基准上的广泛评估,证明了模型显著优于现有方法,克服了当前VLA模型的基本局限性。
Card 03 核心贡献

核心贡献

  • 提出 OmniVLA-RL 统一框架,基于 Mixture-of-Transformers (MoT) 架构,通过共享Transformer层联合整合 Spatial ExpertReasoning ExpertAction Expert,实现语言指令、视觉语义和3D空间特征的深度双向交互。
  • 引入 Block-wise Causal Attention 机制,明确解耦空间语义前缀token和动作后缀token,确保感知保真度与执行连贯性。
  • 提出 Flow-GSPO 方法,将确定性去噪过程重新表述为随机微分方程 (SDE),并在动作块层级使用 GSPO 进行优化,实现稳定的随机探索并避免现有GRPO方法的训练不稳定性。
  • LIBERO 基准上达到 97.6% 的平均成功率,在 LIBERO-Plus 基准上以更快的收敛速度和更高的最终性能显著超越 PPOGRPO 基线。
Card 04 方法描述

方法描述

  • 采用 Mixture-of-Transformers (MoT) 骨干架构,包含三个专家模块:Reasoning Expert (处理视觉语义和语言指令)、Spatial Expert (提取多视图3D空间特征) 和 Action Expert (生成机器人动作轨迹)。
  • 提出并应用 Block-wise Causal Attention 掩码机制,将空间和推理token作为全可见前缀进行双向注意力计算,而对动作token实施因果约束,防止去噪噪声污染场景理解。
  • 在强化学习阶段提出 Flow-GSPO 方法,将基于流匹配的动作生成 (原本为ODE过程) 通过Fokker-Planck方程转换为SDE过程以引入随机性,并以整个动作块为优化单元与 GSPO 算法集成,实现稳定在线强化学习。
Card 05 数据集与资源

数据集与资源

  • 预训练阶段使用大规模 3D数据集 (用于空间感知训练) 和 DROID 数据集 (用于动作生成预训练)。
  • 评估基准为 LIBERO (包含LIBERO-Spatial, LIBERO-Object, LIBERO-Goal, LIBERO-Long四个任务套件) 和更具挑战性的 LIBERO-Plus 基准。
  • 模型基础VLM部分使用 PaLiGemma 的预训练权重进行初始化,训练中使用 AdamW 优化器,学习率为 1e-5
Card 06 评估与结果

评估与结果

  • 评估环境为 LIBEROLIBERO-Plus 机器人操作仿真基准,主要评估指标为任务 成功率
  • LIBERO 基准上,OmniVLA-RL 在所有四个任务套件中均排名第一,平均成功率高达 97.6%;在 LIBERO-Long 长视界任务上达到 93.5%,超越最强基线1.1%。
  • 在更具挑战性的 LIBERO-Plus 基准上,OmniVLA-RL 在收敛速度和最终性能方面均显著优于 PPOGRPO 基线,证明了 Flow-GSPO 方法的优越性。
  • 消融实验证实了 Flow-GSPO 范式相对于模仿学习和标准RL方法的优越性,以及 Spatial Expert 对模型性能的关键作用。