返回列表 VLA / Vision-Language-Action 每日论文卡
VLANeXt: Recipes for Building Strong VLA Models
论文旨在解决当前 Vision-Language-Action (VLA) 模型领域研究碎片化、设计选择缺乏系统性评估的问题。

论文详情

VLANeXt: Recipes for Building Strong VLA Models

2026-02-20 · 原文 · 翻译 · 2602.18532

论文旨在解决当前 Vision-Language-Action (VLA) 模型领域研究碎片化、设计选择缺乏系统性评估的问题。 研究在统一的框架和评估设置下,系统性地重新审视VLA的设计空间,提炼出构建强VLA模型的实用“配方”。 最终提出了一个简单而有效的模型 VLANeXt,在仿真基准和真实机器人实验中均展现出卓越的性能和泛化能力。

5 分钟读完 6 张阅读卡 论文作者包括 Xiao-Ming Wu、Bin Fan、Kang Liao、Jian-jian Jia…
一眼看懂 封面预览

论文旨在解决当前 Vision-Language-Action (VLA) 模型领域研究碎片化、设计选择缺乏系统性评估的问题。

  • 论文旨在解决当前 Vision-Language-Action (VLA) 模型领域研究碎片化、设计选择缺乏系统性评估的问题。
  • 研究在统一的框架和评估设置下,系统性地重新审视VLA的设计空间,提炼出构建强VLA模型的实用“配方”。
  • 最终提出了一个简单而有效的模型 VLANeXt,在仿真基准和真实机器人实验中均展现出卓越的性能和泛化能力。
Card 01 研究单位

研究单位

  • 论文作者包括 Xiao-Ming WuBin FanKang LiaoJian-jian JiangRunze YangYihang LuoZhonghua WuWei-Shi ZhengChen Change Loy。原文未明确标注作者所属机构。
Card 02 论文概述

论文概述

  • 论文旨在解决当前 Vision-Language-Action (VLA) 模型领域研究碎片化、设计选择缺乏系统性评估的问题。
  • 研究在统一的框架和评估设置下,系统性地重新审视VLA的设计空间,提炼出构建强VLA模型的实用“配方”。
  • 最终提出了一个简单而有效的模型 VLANeXt,在仿真基准和真实机器人实验中均展现出卓越的性能和泛化能力。
Card 03 核心贡献

核心贡献

  • 系统性地剖析了VLA设计的三个核心维度:基础组件、感知要领、动作建模视角,并从中提炼出 12个关键发现,形成构建强VLA模型的实用配方。
  • 基于研究提出的配方,提出了 VLANeXt 模型,在 LIBEROLIBERO-plus 基准测试中取得了超越先前最先进方法的性能。
  • 在真实世界的机器人操纵任务上进行了广泛评估,验证了 VLANeXt 出色的泛化能力。
  • 计划发布一个 统一、易用的代码库,作为社区探索VLA设计空间和构建新模型变体的共享基础。
Card 04 方法描述

方法描述

  • 研究从类似 RT-2OpenVLA 的基线模型出发,通过消融实验逐步演进设计。
  • 提出并验证了多项关键创新:采用独立的、更大的 策略模块 并通过“软连接”与VLM交互;使用 流匹配 作为动作学习目标;引入 频域损失 作为辅助任务。
  • 在感知层面,发现使用 多视角输入(第三人称+手腕摄像头) 和将 本体感觉 条件注入VLM(而非策略模块)能显著提升性能。
  • 最终的 VLANeXt 模型整合了上述所有有效的设计选择。
Card 05 数据集与资源

数据集与资源

  • 主要使用 LIBEROLIBERO-plus 基准数据集进行训练和评估,其中LIBERO-plus包含多种未见过的扰动以测试鲁棒性。
  • 最终 VLANeXt 模型的规模为 2.5B 参数。
  • 原文未明确说明训练所使用的具体GPU/TPU等计算资源。
Card 06 评估与结果

评估与结果

  • 评估在 LIBERO(测试标准任务性能)和 LIBERO-plus(测试鲁棒性和泛化能力)两个基准上进行。
  • 主要评估指标为 任务成功率
  • LIBERO 基准上,VLANeXt 在四个测试套件上的平均成功率达到了 97.4%,超越了 OpenVLA-OFT (97.1%) 等先前最优模型。
  • 在更具挑战性的 LIBERO-plus 基准上,VLANeXt 展现了强大的鲁棒性,相较于其他方法有显著提升,特别是在相机视角、光照和背景变化等扰动下表现优异。