一眼看懂
封面预览
论文指出现有视觉-语言-动作模型(VLAs)评估协议(如 BEHAVIOR1K)仅关注最终状态的“进度无关型”指标,忽略了操作过程中的安全违规…
- 论文指出现有视觉-语言-动作模型(VLAs)评估协议(如 BEHAVIOR1K)仅关注最终状态的“进度无关型”指标,忽略了操作过程中的安全违规…
- 对 B1K Challenge 中的顶尖 VLA 模型进行了系统性分析,揭示了其在开放世界环境中的鲁棒性问题、一致性缺陷及主要失败模式。
- 提出了新的安全感知评估指标以量化安全违规,并讨论了现有 VLAs 在现实部署中的局限性及改进方向。
Card 01
研究单位
研究单位
- Noah’s Ark Laboratory, Huawei Technologies Canada
Card 02
论文概述
论文概述
- 论文指出现有视觉-语言-动作模型(VLAs)评估协议(如 BEHAVIOR1K)仅关注最终状态的“进度无关型”指标,忽略了操作过程中的安全违规,可能夸大模型性能。
- 对 B1K Challenge 中的顶尖 VLA 模型进行了系统性分析,揭示了其在开放世界环境中的鲁棒性问题、一致性缺陷及主要失败模式。
- 提出了新的安全感知评估指标以量化安全违规,并讨论了现有 VLAs 在现实部署中的局限性及改进方向。
Card 03
核心贡献
核心贡献
- 对 B1K Challenge 冠军模型进行了深入分析,涵盖结果的可重复性、任务间的一致性表现以及通过专家观看分析识别的失败根源。
- 提出了超越传统成功率的安全评估指标,包括 Safety Q-score (sQ) 和 Safety-Enhanced Q-score (seQ),以捕捉目标对象处理不当和非目标对象违规等安全隐患。
- 提出了一系列架构无关的改进策略,如安全感知数据构建、结构化课程设计,旨在激励未来开发更可靠的机器人策略。
Card 04
方法描述
方法描述
- 采用 专家观看分析 方法,组织 8 名机器人专家对 500 个任务执行视频进行定性审查,归纳出 10 类失败原因(如抓取失败、碰撞、任务混淆等)。
- 基于现有 B1K 的 BDDL 评估框架,引入 placement(放置姿态)和 handling(关键对象处理)指标来惩罚不安全操作,扩展为 sQ 指标。
- 进一步引入针对非目标支持对象的子目标,构建了 seQ 指标,以评估机器人与环境交互中对非目标物体造成的干扰或破坏。
Card 05
数据集与资源
数据集与资源
- 使用 BEHAVIOR-1K (B1K) 基准测试中的 50 个代表性家庭任务(涵盖厨房、卧室、办公室等场景)。
- 评估对象为 B1K 2025 Challenge 的前两名模型:RLC 和 Comet。
- 使用官方发布的模型检查点在本地环境进行复现和评估。
Card 06
评估与结果
评估与结果
- 评估环境为 BEHAVIOR-1K 模拟器,主要指标包括原始 Q-score、提出的 sQ、seQ 以及违规计数(TV/nTV)。
- 实验结果显示,现有顶尖模型的总体成功率极低(平均 Q-score 仅约 0.26),且结果在不同运行间存在显著的不可重复性。
- 应用安全指标后,模型性能评分显著下降(最高降幅达 35%),揭示了被传统指标忽视的大量安全违规行为(如物体掉落、碰撞)。
- 抓取失败和与环境的碰撞是最频繁出现的错误类型,且模型在复杂任务中表现出严重的任务混淆和顺序错误。