一眼看懂
封面预览
论文针对现有视觉-语言-动作模型基准测试存在的评估协议不完善和数据多样性不足的问题,提出了新的基准测试框架。
- 论文针对现有视觉-语言-动作模型基准测试存在的评估协议不完善和数据多样性不足的问题,提出了新的基准测试框架。
- 核心目标是提供一个更可靠、更能揭示模型真实能力的评估平台,以系统地评估VLA模型在复杂、多维分布偏移下的泛化能力和鲁棒性。
- 提出了 LIBERO-X 基准,包含一个难度递进的分层评估协议和多标签细粒度评估系统,能够系统刻画模型在空间、对象和语义等多维扰动下的性能退化。
Card 01
研究单位
研究单位
- 作者来自 美团 和 北京航空航天大学。
Card 02
论文概述
论文概述
- 论文针对现有视觉-语言-动作模型基准测试存在的评估协议不完善和数据多样性不足的问题,提出了新的基准测试框架。
- 核心目标是提供一个更可靠、更能揭示模型真实能力的评估平台,以系统地评估VLA模型在复杂、多维分布偏移下的泛化能力和鲁棒性。
Card 03
核心贡献
核心贡献
- 提出了 LIBERO-X 基准,包含一个难度递进的分层评估协议和多标签细粒度评估系统,能够系统刻画模型在空间、对象和语义等多维扰动下的性能退化。
- 构建了一个通过VR遥操作采集的高多样性训练数据集,包含 2,520 条演示轨迹、600 个任务和 100 个场景,显著提升了场景和任务的多样性。
- 对多个代表性的VLA模型进行了全面评估,揭示了其在累积扰动下显著的性能下降,暴露了在场景理解和指令定位方面的局限性。
Card 04
方法描述
方法描述
- 评估框架采用“重用-调整-重建”策略,构建了五级递进的评估任务,从局部空间扰动逐步扩展到语义等价重构,实现累积式鲁棒性评估。
- 引入了多标签评估系统,为每个任务标注交互类型、子任务数量、空间关系和对象属性等细粒度标签,支持深入的性能诊断。
- 训练数据集通过人类VR遥操作(Meta Quest 3)在 MuJoCo 仿真环境中收集,设计多任务场景和属性条件操纵,避免模板化映射。
Card 05
数据集与资源
数据集与资源
- LIBERO-X 训练数据集:包含 2,520 条演示轨迹,覆盖 600 个任务和 100 个场景。
- 仿真环境基于 MuJoCo 物理引擎。
- 论文未明确提及具体的GPU/TPU等训练资源。
Card 06
评估与结果
评估与结果
- 评估了 OpenVLA-OFT、X-VLA、GR00T-N1.5、π₀ 和 π₀.₅ 五个代表性VLA模型。
- 主要评估指标为任务成功率。
- 关键结果显示:所有模型性能随任务复杂度增加而显著下降(从Level 1到Level 5平均下降31.2%);即使表现最佳的 π₀.₅ 在Level 1的成功率也仅为65.2%,远低于在原始LIBERO基准上常见的约90%饱和性能;模型在长序列任务和未见对象上表现尤其不佳。