返回列表 VLA / Vision-Language-Action 每日论文卡
LIBERO-X: Robustness Litmus for Vision-Language-Action Models
论文针对现有视觉-语言-动作模型基准测试存在的评估协议不完善和数据多样性不足的问题,提出了新的基准测试框架。

论文详情

LIBERO-X: Robustness Litmus for Vision-Language-Action Models

2026-02-06 · 原文 · 翻译 · 2602.06556

论文针对现有视觉-语言-动作模型基准测试存在的评估协议不完善和数据多样性不足的问题,提出了新的基准测试框架。 核心目标是提供一个更可靠、更能揭示模型真实能力的评估平台,以系统地评估VLA模型在复杂、多维分布偏移下的泛化能力和鲁棒性。

4 分钟读完 6 张阅读卡 作者来自 美团 和 北京航空航天大学。
一眼看懂 封面预览

论文针对现有视觉-语言-动作模型基准测试存在的评估协议不完善和数据多样性不足的问题,提出了新的基准测试框架。

  • 论文针对现有视觉-语言-动作模型基准测试存在的评估协议不完善和数据多样性不足的问题,提出了新的基准测试框架。
  • 核心目标是提供一个更可靠、更能揭示模型真实能力的评估平台,以系统地评估VLA模型在复杂、多维分布偏移下的泛化能力和鲁棒性。
  • 提出了 LIBERO-X 基准,包含一个难度递进的分层评估协议和多标签细粒度评估系统,能够系统刻画模型在空间、对象和语义等多维扰动下的性能退化。
Card 01 研究单位

研究单位

  • 作者来自 美团北京航空航天大学
Card 02 论文概述

论文概述

  • 论文针对现有视觉-语言-动作模型基准测试存在的评估协议不完善和数据多样性不足的问题,提出了新的基准测试框架。
  • 核心目标是提供一个更可靠、更能揭示模型真实能力的评估平台,以系统地评估VLA模型在复杂、多维分布偏移下的泛化能力和鲁棒性。
Card 03 核心贡献

核心贡献

  • 提出了 LIBERO-X 基准,包含一个难度递进的分层评估协议和多标签细粒度评估系统,能够系统刻画模型在空间、对象和语义等多维扰动下的性能退化。
  • 构建了一个通过VR遥操作采集的高多样性训练数据集,包含 2,520 条演示轨迹、600 个任务和 100 个场景,显著提升了场景和任务的多样性。
  • 对多个代表性的VLA模型进行了全面评估,揭示了其在累积扰动下显著的性能下降,暴露了在场景理解和指令定位方面的局限性。
Card 04 方法描述

方法描述

  • 评估框架采用“重用-调整-重建”策略,构建了五级递进的评估任务,从局部空间扰动逐步扩展到语义等价重构,实现累积式鲁棒性评估。
  • 引入了多标签评估系统,为每个任务标注交互类型、子任务数量、空间关系和对象属性等细粒度标签,支持深入的性能诊断。
  • 训练数据集通过人类VR遥操作(Meta Quest 3)在 MuJoCo 仿真环境中收集,设计多任务场景和属性条件操纵,避免模板化映射。
Card 05 数据集与资源

数据集与资源

  • LIBERO-X 训练数据集:包含 2,520 条演示轨迹,覆盖 600 个任务和 100 个场景。
  • 仿真环境基于 MuJoCo 物理引擎。
  • 论文未明确提及具体的GPU/TPU等训练资源。
Card 06 评估与结果

评估与结果

  • 评估了 OpenVLA-OFTX-VLAGR00T-N1.5π₀π₀.₅ 五个代表性VLA模型。
  • 主要评估指标为任务成功率。
  • 关键结果显示:所有模型性能随任务复杂度增加而显著下降(从Level 1到Level 5平均下降31.2%);即使表现最佳的 π₀.₅ 在Level 1的成功率也仅为65.2%,远低于在原始LIBERO基准上常见的约90%饱和性能;模型在长序列任务和未见对象上表现尤其不佳。