论文针对现有视觉-语言-动作模型基准测试存在的评估协议不完善和数据多样性不足的问题，提出了新的基准测试框架。

论文详情

LIBERO-X: Robustness Litmus for Vision-Language-Action Models

2026-02-06 · 原文 · 翻译 · 2602.06556

论文针对现有视觉-语言-动作模型基准测试存在的评估协议不完善和数据多样性不足的问题，提出了新的基准测试框架。核心目标是提供一个更可靠、更能揭示模型真实能力的评估平台，以系统地评估VLA模型在复杂、多维分布偏移下的泛化能力和鲁棒性。

4 分钟读完 6 张阅读卡作者来自美团和北京航空航天大学。

一眼看懂封面预览

论文针对现有视觉-语言-动作模型基准测试存在的评估协议不完善和数据多样性不足的问题，提出了新的基准测试框架。

论文针对现有视觉-语言-动作模型基准测试存在的评估协议不完善和数据多样性不足的问题，提出了新的基准测试框架。
核心目标是提供一个更可靠、更能揭示模型真实能力的评估平台，以系统地评估VLA模型在复杂、多维分布偏移下的泛化能力和鲁棒性。
提出了 LIBERO-X 基准，包含一个难度递进的分层评估协议和多标签细粒度评估系统，能够系统刻画模型在空间、对象和语义等多维扰动下的性能退化。

Card 01 研究单位

研究单位

作者来自美团和 北京航空航天大学。

Card 02 论文概述

论文概述

论文针对现有视觉-语言-动作模型基准测试存在的评估协议不完善和数据多样性不足的问题，提出了新的基准测试框架。
核心目标是提供一个更可靠、更能揭示模型真实能力的评估平台，以系统地评估VLA模型在复杂、多维分布偏移下的泛化能力和鲁棒性。

Card 03 核心贡献

核心贡献

提出了 LIBERO-X 基准，包含一个难度递进的分层评估协议和多标签细粒度评估系统，能够系统刻画模型在空间、对象和语义等多维扰动下的性能退化。
构建了一个通过VR遥操作采集的高多样性训练数据集，包含 2,520 条演示轨迹、600 个任务和 100 个场景，显著提升了场景和任务的多样性。
对多个代表性的VLA模型进行了全面评估，揭示了其在累积扰动下显著的性能下降，暴露了在场景理解和指令定位方面的局限性。

Card 04 方法描述

方法描述

评估框架采用“重用-调整-重建”策略，构建了五级递进的评估任务，从局部空间扰动逐步扩展到语义等价重构，实现累积式鲁棒性评估。
引入了多标签评估系统，为每个任务标注交互类型、子任务数量、空间关系和对象属性等细粒度标签，支持深入的性能诊断。
训练数据集通过人类VR遥操作（Meta Quest 3）在 MuJoCo 仿真环境中收集，设计多任务场景和属性条件操纵，避免模板化映射。

Card 05 数据集与资源

数据集与资源

LIBERO-X 训练数据集：包含 2,520 条演示轨迹，覆盖 600 个任务和 100 个场景。
仿真环境基于 MuJoCo 物理引擎。
论文未明确提及具体的GPU/TPU等训练资源。

Card 06 评估与结果

评估与结果

评估了 OpenVLA-OFT、X-VLA、GR00T-N1.5、π₀ 和 π₀.₅ 五个代表性VLA模型。
主要评估指标为任务成功率。
关键结果显示：所有模型性能随任务复杂度增加而显著下降（从Level 1到Level 5平均下降31.2%）；即使表现最佳的 π₀.₅ 在Level 1的成功率也仅为65.2%，远低于在原始LIBERO基准上常见的约90%饱和性能；模型在长序列任务和未见对象上表现尤其不佳。