论文旨在解决当前 Vision-Language-Action (VLA) 模型领域研究碎片化、设计选择缺乏系统性评估的问题。

论文详情

VLANeXt: Recipes for Building Strong VLA Models

2026-02-20 · 原文 · 翻译 · 2602.18532

论文旨在解决当前 Vision-Language-Action (VLA) 模型领域研究碎片化、设计选择缺乏系统性评估的问题。研究在统一的框架和评估设置下，系统性地重新审视VLA的设计空间，提炼出构建强VLA模型的实用“配方”。最终提出了一个简单而有效的模型 VLANeXt，在仿真基准和真实机器人实验中均展现出卓越的性能和泛化能力。

5 分钟读完 6 张阅读卡论文作者包括 Xiao-Ming Wu、Bin Fan、Kang Liao、Jian-jian Jia…

一眼看懂封面预览

论文旨在解决当前 Vision-Language-Action (VLA) 模型领域研究碎片化、设计选择缺乏系统性评估的问题。

论文旨在解决当前 Vision-Language-Action (VLA) 模型领域研究碎片化、设计选择缺乏系统性评估的问题。
研究在统一的框架和评估设置下，系统性地重新审视VLA的设计空间，提炼出构建强VLA模型的实用“配方”。
最终提出了一个简单而有效的模型 VLANeXt，在仿真基准和真实机器人实验中均展现出卓越的性能和泛化能力。

Card 01 研究单位

研究单位

论文作者包括 Xiao-Ming Wu、Bin Fan、Kang Liao、Jian-jian Jiang、Runze Yang、Yihang Luo、Zhonghua Wu、Wei-Shi Zheng、Chen Change Loy。原文未明确标注作者所属机构。

Card 02 论文概述

论文概述

论文旨在解决当前 Vision-Language-Action (VLA) 模型领域研究碎片化、设计选择缺乏系统性评估的问题。
研究在统一的框架和评估设置下，系统性地重新审视VLA的设计空间，提炼出构建强VLA模型的实用“配方”。
最终提出了一个简单而有效的模型 VLANeXt，在仿真基准和真实机器人实验中均展现出卓越的性能和泛化能力。

Card 03 核心贡献

核心贡献

系统性地剖析了VLA设计的三个核心维度：基础组件、感知要领、动作建模视角，并从中提炼出 12个关键发现，形成构建强VLA模型的实用配方。
基于研究提出的配方，提出了 VLANeXt 模型，在 LIBERO 和 LIBERO-plus 基准测试中取得了超越先前最先进方法的性能。
在真实世界的机器人操纵任务上进行了广泛评估，验证了 VLANeXt 出色的泛化能力。
计划发布一个 统一、易用的代码库，作为社区探索VLA设计空间和构建新模型变体的共享基础。

Card 04 方法描述

方法描述

研究从类似 RT-2 和 OpenVLA 的基线模型出发，通过消融实验逐步演进设计。
提出并验证了多项关键创新：采用独立的、更大的 策略模块 并通过“软连接”与VLM交互；使用 流匹配 作为动作学习目标；引入 频域损失 作为辅助任务。
在感知层面，发现使用 多视角输入（第三人称+手腕摄像头） 和将 本体感觉 条件注入VLM（而非策略模块）能显著提升性能。
最终的 VLANeXt 模型整合了上述所有有效的设计选择。

Card 05 数据集与资源

数据集与资源

主要使用 LIBERO 和 LIBERO-plus 基准数据集进行训练和评估，其中LIBERO-plus包含多种未见过的扰动以测试鲁棒性。
最终 VLANeXt 模型的规模为 2.5B 参数。
原文未明确说明训练所使用的具体GPU/TPU等计算资源。

Card 06 评估与结果

评估与结果

评估在 LIBERO（测试标准任务性能）和 LIBERO-plus（测试鲁棒性和泛化能力）两个基准上进行。
主要评估指标为 任务成功率。
在 LIBERO 基准上，VLANeXt 在四个测试套件上的平均成功率达到了 97.4%，超越了 OpenVLA-OFT (97.1%) 等先前最优模型。
在更具挑战性的 LIBERO-plus 基准上，VLANeXt 展现了强大的鲁棒性，相较于其他方法有显著提升，特别是在相机视角、光照和背景变化等扰动下表现优异。