返回列表 VLA / Vision-Language-Action 每日论文卡
How VLAs (Really) Work In Open-World Environments
论文指出现有视觉-语言-动作模型(VLAs)评估协议(如 BEHAVIOR1K)仅关注最终状态的“进度无关型”指标,忽略了操作过程中的安全违规…

论文详情

How VLAs (Really) Work In Open-World Environments

2026-04-23 · 原文 · 翻译 · 2604.21192

论文指出现有视觉-语言-动作模型(VLAs)评估协议(如 BEHAVIOR1K)仅关注最终状态的“进度无关型”指标,忽略了操作过程中的安全违规,可能夸大模型性能。 对 B1K Challenge 中的顶尖 VLA 模型进行了系统性分析,揭示了其在开放世界环境中的鲁棒性问题、一致性缺陷及主要失败模式。 提出了新的安全感知评估指标以量化安全违规,并讨论了现有 VLAs 在现实部署中的局限性及改进方向。

4 分钟读完 6 张阅读卡 Noah’s Ark Laboratory, Huawei Technologies Canada
一眼看懂 封面预览

论文指出现有视觉-语言-动作模型(VLAs)评估协议(如 BEHAVIOR1K)仅关注最终状态的“进度无关型”指标,忽略了操作过程中的安全违规…

  • 论文指出现有视觉-语言-动作模型(VLAs)评估协议(如 BEHAVIOR1K)仅关注最终状态的“进度无关型”指标,忽略了操作过程中的安全违规…
  • 对 B1K Challenge 中的顶尖 VLA 模型进行了系统性分析,揭示了其在开放世界环境中的鲁棒性问题、一致性缺陷及主要失败模式。
  • 提出了新的安全感知评估指标以量化安全违规,并讨论了现有 VLAs 在现实部署中的局限性及改进方向。
Card 01 研究单位

研究单位

  • Noah’s Ark Laboratory, Huawei Technologies Canada
Card 02 论文概述

论文概述

  • 论文指出现有视觉-语言-动作模型(VLAs)评估协议(如 BEHAVIOR1K)仅关注最终状态的“进度无关型”指标,忽略了操作过程中的安全违规,可能夸大模型性能。
  • 对 B1K Challenge 中的顶尖 VLA 模型进行了系统性分析,揭示了其在开放世界环境中的鲁棒性问题、一致性缺陷及主要失败模式。
  • 提出了新的安全感知评估指标以量化安全违规,并讨论了现有 VLAs 在现实部署中的局限性及改进方向。
Card 03 核心贡献

核心贡献

  • 对 B1K Challenge 冠军模型进行了深入分析,涵盖结果的可重复性、任务间的一致性表现以及通过专家观看分析识别的失败根源。
  • 提出了超越传统成功率的安全评估指标,包括 Safety Q-score (sQ) 和 Safety-Enhanced Q-score (seQ),以捕捉目标对象处理不当和非目标对象违规等安全隐患。
  • 提出了一系列架构无关的改进策略,如安全感知数据构建、结构化课程设计,旨在激励未来开发更可靠的机器人策略。
Card 04 方法描述

方法描述

  • 采用 专家观看分析 方法,组织 8 名机器人专家对 500 个任务执行视频进行定性审查,归纳出 10 类失败原因(如抓取失败、碰撞、任务混淆等)。
  • 基于现有 B1K 的 BDDL 评估框架,引入 placement(放置姿态)和 handling(关键对象处理)指标来惩罚不安全操作,扩展为 sQ 指标。
  • 进一步引入针对非目标支持对象的子目标,构建了 seQ 指标,以评估机器人与环境交互中对非目标物体造成的干扰或破坏。
Card 05 数据集与资源

数据集与资源

  • 使用 BEHAVIOR-1K (B1K) 基准测试中的 50 个代表性家庭任务(涵盖厨房、卧室、办公室等场景)。
  • 评估对象为 B1K 2025 Challenge 的前两名模型:RLCComet
  • 使用官方发布的模型检查点在本地环境进行复现和评估。
Card 06 评估与结果

评估与结果

  • 评估环境为 BEHAVIOR-1K 模拟器,主要指标包括原始 Q-score、提出的 sQseQ 以及违规计数(TV/nTV)。
  • 实验结果显示,现有顶尖模型的总体成功率极低(平均 Q-score 仅约 0.26),且结果在不同运行间存在显著的不可重复性。
  • 应用安全指标后,模型性能评分显著下降(最高降幅达 35%),揭示了被传统指标忽视的大量安全违规行为(如物体掉落、碰撞)。
  • 抓取失败和与环境的碰撞是最频繁出现的错误类型,且模型在复杂任务中表现出严重的任务混淆和顺序错误。