返回列表 VLA / Vision-Language-Action 每日论文卡
NEBULA: Do We Evaluate Vision-Language-Action Agents Correctly?
论文针对当前 VLA (Vision-Language-Action) 智能体评估方法存在的问题提出批评:现有基准测试主要使用粗粒度的任务成功…

论文详情

NEBULA: Do We Evaluate Vision-Language-Action Agents Correctly?

2025-10-17 · 原文 · 翻译 · 2510.16263

论文针对当前 VLA (Vision-Language-Action) 智能体评估方法存在的问题提出批评:现有基准测试主要使用粗粒度的任务成功率指标,无法提供精确的技能诊断或衡量对真实世界扰动的鲁棒性 研究目标:构建一个统一的生态系统 NEBULA,用于单臂操作的诊断性和可重复评估,解决数据碎片化问题并建立双轴评估框架 核心创新:结合细粒度的 能力测试 (Capability Tests) 进行精确技能诊断,并通过…

6 分钟读完 6 张阅读卡 Case Western Reserve University (凯斯西储大学) - Departme…
一眼看懂 封面预览

论文针对当前 VLA (Vision-Language-Action) 智能体评估方法存在的问题提出批评:现有基准测试主要使用粗粒度的任务成功…

  • 论文针对当前 VLA (Vision-Language-Action) 智能体评估方法存在的问题提出批评:现有基准测试主要使用粗粒度的任务成功…
  • 研究目标:构建一个统一的生态系统 NEBULA,用于单臂操作的诊断性和可重复评估,解决数据碎片化问题并建立双轴评估框架
  • 核心创新:结合细粒度的 能力测试 (Capability Tests) 进行精确技能诊断,并通过系统的 压力测试 (Stress Tests)…
Card 01 研究单位

研究单位

  • Case Western Reserve University (凯斯西储大学) - Department of Computer & Data Sciences
  • 作者包括:Jierui Peng, Yanyan Zhang (通讯作者), Yicheng Duan, Tuo Liang, Vipin Chaudhary, Yu Yin
Card 02 论文概述

论文概述

  • 论文针对当前 VLA (Vision-Language-Action) 智能体评估方法存在的问题提出批评:现有基准测试主要使用粗粒度的任务成功率指标,无法提供精确的技能诊断或衡量对真实世界扰动的鲁棒性
  • 研究目标:构建一个统一的生态系统 NEBULA,用于单臂操作的诊断性和可重复评估,解决数据碎片化问题并建立双轴评估框架
  • 核心创新:结合细粒度的 能力测试 (Capability Tests) 进行精确技能诊断,并通过系统的 压力测试 (Stress Tests) 衡量智能体在真实扰动下的鲁棒性
Card 03 核心贡献

核心贡献

  • 提出 NEBULA 统一 VLA 生态系统,提供标准化 API 和大规模聚合数据集,支持跨数据集训练和基准测试
  • 设计 双轴评估协议,将能力评估与压力测试分离,结合能力测试(6 种核心技能)和压力测试(5 个操作约束维度)
  • 对当前主流 VLA 模型进行深入基准测试研究,揭示了空间推理和动态适应等关键失败模式,这些通常被传统成功率指标所掩盖
Card 04 方法描述

方法描述

  • 统一数据平台:基于 SAPIEN 引擎和 ManiSkill3 框架构建,提供结构化的episode格式和多模态观测(RGB、深度、分割图像 + 本体感受)
  • 双轴评估框架

- 能力测试任务:Control (控制)、Perception (感知)、Language (语言)、Dynamic Adaptation (动态适应)、Spatial Reasoning (空间推理)、Robustness/Generalization (鲁棒性/泛化),每个家族分为 Easy/Medium/Hard 三个难度等级

- 压力测试任务:Inference Frequency (推理频率)、Latency (延迟)、Stability Score (稳定性评分)、Adaptability (适应性)、Resources (资源),每个指标在三个压力水平 (v1-v3) 上进行测试

Card 05 数据集与资源

数据集与资源

  • NEBULA-Alpha:54,000+ 专家演示轨迹,覆盖 5 个能力家族(控制、感知、语言、动态、空间),共 222,000 个视频,38,015 条描述
  • NEBULA-Beta:轻量级版本(每个任务约 10%),部分任务使用人类远程操作收集
  • 模拟平台:基于 SAPIEN 引擎和 ManiSkill3 框架
  • 评估模型:GR00T-1.5、SpatialVLA、RDT-1B、MT-ACT、Diffusion Policy、ACT
Card 06 评估与结果

评估与结果

  • 能力测试结果:大多数模型在 Perception 和 Language 任务上表现良好;Control 和 Spatial 任务表现各异;所有模型在 Dynamic Adaptation 和 Robustness 任务上表现较差,雷达图分数接近零
  • 压力测试结果:随着压力水平增加,所有模型性能一致下降;GR00T-1.5 保持最高推理频率(约 17Hz,v3 水平)和最低延迟(约 58.62ms);DP 显示延迟显著增加,v3 水平接近 800ms
  • 关键发现:空间推理是主要瓶颈;快速推理是动态适应的关键(GR00T-1.5 是唯一显示有意义适应的模型,成功率 28%);VLM 的强推理能力不能保证成功的具身行为,关键瓶颈在于动作头部将抽象计划转换为精确控制动作的能力