论文指出现有视觉-语言-动作模型（VLAs）评估协议（如 BEHAVIOR1K）仅关注最终状态的“进度无关型”指标，忽略了操作过程中的安全违规…

论文详情

How VLAs (Really) Work In Open-World Environments

2026-04-23 · 原文 · 翻译 · 2604.21192

论文指出现有视觉-语言-动作模型（VLAs）评估协议（如 BEHAVIOR1K）仅关注最终状态的“进度无关型”指标，忽略了操作过程中的安全违规，可能夸大模型性能。对 B1K Challenge 中的顶尖 VLA 模型进行了系统性分析，揭示了其在开放世界环境中的鲁棒性问题、一致性缺陷及主要失败模式。提出了新的安全感知评估指标以量化安全违规，并讨论了现有 VLAs 在现实部署中的局限性及改进方向。

4 分钟读完 6 张阅读卡 Noah’s Ark Laboratory, Huawei Technologies Canada

一眼看懂封面预览

论文指出现有视觉-语言-动作模型（VLAs）评估协议（如 BEHAVIOR1K）仅关注最终状态的“进度无关型”指标，忽略了操作过程中的安全违规…

论文指出现有视觉-语言-动作模型（VLAs）评估协议（如 BEHAVIOR1K）仅关注最终状态的“进度无关型”指标，忽略了操作过程中的安全违规…
对 B1K Challenge 中的顶尖 VLA 模型进行了系统性分析，揭示了其在开放世界环境中的鲁棒性问题、一致性缺陷及主要失败模式。
提出了新的安全感知评估指标以量化安全违规，并讨论了现有 VLAs 在现实部署中的局限性及改进方向。

Card 01 研究单位

研究单位

Noah’s Ark Laboratory, Huawei Technologies Canada

Card 02 论文概述

论文概述

论文指出现有视觉-语言-动作模型（VLAs）评估协议（如 BEHAVIOR1K）仅关注最终状态的“进度无关型”指标，忽略了操作过程中的安全违规，可能夸大模型性能。
对 B1K Challenge 中的顶尖 VLA 模型进行了系统性分析，揭示了其在开放世界环境中的鲁棒性问题、一致性缺陷及主要失败模式。
提出了新的安全感知评估指标以量化安全违规，并讨论了现有 VLAs 在现实部署中的局限性及改进方向。

Card 03 核心贡献

核心贡献

对 B1K Challenge 冠军模型进行了深入分析，涵盖结果的可重复性、任务间的一致性表现以及通过专家观看分析识别的失败根源。
提出了超越传统成功率的安全评估指标，包括 Safety Q-score (sQ) 和 Safety-Enhanced Q-score (seQ)，以捕捉目标对象处理不当和非目标对象违规等安全隐患。
提出了一系列架构无关的改进策略，如安全感知数据构建、结构化课程设计，旨在激励未来开发更可靠的机器人策略。

Card 04 方法描述

方法描述

采用 专家观看分析 方法，组织 8 名机器人专家对 500 个任务执行视频进行定性审查，归纳出 10 类失败原因（如抓取失败、碰撞、任务混淆等）。
基于现有 B1K 的 BDDL 评估框架，引入 placement（放置姿态）和 handling（关键对象处理）指标来惩罚不安全操作，扩展为 sQ 指标。
进一步引入针对非目标支持对象的子目标，构建了 seQ 指标，以评估机器人与环境交互中对非目标物体造成的干扰或破坏。

Card 05 数据集与资源

数据集与资源

使用 BEHAVIOR-1K (B1K) 基准测试中的 50 个代表性家庭任务（涵盖厨房、卧室、办公室等场景）。
评估对象为 B1K 2025 Challenge 的前两名模型：RLC 和 Comet。
使用官方发布的模型检查点在本地环境进行复现和评估。

Card 06 评估与结果

评估与结果

评估环境为 BEHAVIOR-1K 模拟器，主要指标包括原始 Q-score、提出的 sQ、seQ 以及违规计数（TV/nTV）。
实验结果显示，现有顶尖模型的总体成功率极低（平均 Q-score 仅约 0.26），且结果在不同运行间存在显著的不可重复性。
应用安全指标后，模型性能评分显著下降（最高降幅达 35%），揭示了被传统指标忽视的大量安全违规行为（如物体掉落、碰撞）。
抓取失败和与环境的碰撞是最频繁出现的错误类型，且模型在复杂任务中表现出严重的任务混淆和顺序错误。