返回列表 VLA / Vision-Language-Action 每日论文卡
HazardArena: Evaluating Semantic Safety in Vision-Language-Action Models
提出并构建了 HazardArena 基准测试,旨在评估视觉-语言-动作 (VLA) 模型在具有语义风险的受控环境中的语义安全性。

论文详情

HazardArena: Evaluating Semantic Safety in Vision-Language-Action Models

2026-04-14 · 原文 · 翻译 · 2604.12447

提出并构建了 HazardArena 基准测试,旨在评估视觉-语言-动作 (VLA) 模型在具有语义风险的受控环境中的语义安全性。 指出当前 VLA 评估主要关注动作执行的成功与否,导致动作策略与视觉-语言语义松耦合,存在结构性漏洞:正确的动作执行可能在语义风险下导致不安全结果。 旨在通过“安全/不安全双胞胎场景”的设计,显式揭示并评估 VLA 模型是否真正具备语义安全约束意识,而非仅仅具备动作执行能力。

5 分钟读完 6 张阅读卡 Fudan University
一眼看懂 封面预览

提出并构建了 HazardArena 基准测试,旨在评估视觉-语言-动作 (VLA) 模型在具有语义风险的受控环境中的语义安全性。

  • 提出并构建了 HazardArena 基准测试,旨在评估视觉-语言-动作 (VLA) 模型在具有语义风险的受控环境中的语义安全性。
  • 指出当前 VLA 评估主要关注动作执行的成功与否,导致动作策略与视觉-语言语义松耦合,存在结构性漏洞:正确的动作执行可能在语义风险下导致不安全…
  • 旨在通过“安全/不安全双胞胎场景”的设计,显式揭示并评估 VLA 模型是否真正具备语义安全约束意识,而非仅仅具备动作执行能力。
Card 01 研究单位

研究单位

  • Fudan University
  • Shanghai Innovation Institute
  • City University of Hong Kong
Card 02 论文概述

论文概述

  • 提出并构建了 HazardArena 基准测试,旨在评估视觉-语言-动作 (VLA) 模型在具有语义风险的受控环境中的语义安全性。
  • 指出当前 VLA 评估主要关注动作执行的成功与否,导致动作策略与视觉-语言语义松耦合,存在结构性漏洞:正确的动作执行可能在语义风险下导致不安全结果。
  • 旨在通过“安全/不安全双胞胎场景”的设计,显式揭示并评估 VLA 模型是否真正具备语义安全约束意识,而非仅仅具备动作执行能力。
Card 03 核心贡献

核心贡献

  • 识别并阐述了当前 VLA 系统的一个结构性漏洞:动作执行能力并不能可靠反映其对视觉-语言语义的安全约束。
  • 引入了 HazardArena 基准,基于“安全/不安全双胞胎场景”构建,证明了即使模型仅在安全数据上训练,在对应的危险场景中仍可能表现出不安全行为。
  • 提出了一种无需训练的 Safety Option Layer (SOL),通过在动作执行前引入语义判断(属性规则或视觉语言判别器),有效缓解语义安全漏洞,同时保持任务性能。
Card 04 方法描述

方法描述

  • 采用“安全/不安全双胞胎场景”构建方法,每个危险场景对应一个语义安全且动作需求完全一致的孪生场景,仅语义上下文不同,从而隔离并评估语义风险。
  • 创新性地引入了“阶段性评估指标”,包括 attempt_ratecommit_ratesuccess_rate,以量化动作意图和接近危险完成的程度,超越二元终端结果的评估。
  • 提出了轻量级的 Safety Option Layer (SOL),分为 L1 层(基于可审计属性规则的语义门控)和 L2 层(使用外部视觉-语言模型进行安全判别),在推理时拦截语义不安全的动作。
Card 05 数据集与资源

数据集与资源

  • 数据集:构建了包含超过 2000 个资产和 40 个风险敏感任务的 HazardArena 基准,覆盖 7 个现实世界的风险类别(如食品安全、财产安全、化学、隐私、火灾、人身、电气等)。
  • 评估模型:测试了包括 OpenVLA-OFTπ₀NORAVLA-Adapter 等代表性 VLA 模型。
  • 训练资源:所有模型仅在安全演示轨迹(600条轨迹,6个安全任务)上进行微调,以控制执行能力并评估语义安全泛化。
Card 06 评估与结果

评估与结果

  • 评估环境:在模拟的物理环境中进行,采用 HazardArena 的安全/不安全双胞胎场景。
  • 评估指标:主要使用 success_rate (SR)attempt_ratecommit_rate,其中 commit_rate 用于衡量接近危险完成的程度。
  • 关键结果:在仅安全数据微调的模型中,随着安全任务成功率的提升,对应危险任务的成功率也随之上升,表明操作能力增强导致危险行为增加。阶段性指标(如 commit_rate)比终端成功率能更准确地揭示不安全行为的进展。Safety Option Layer (SOL) 能显著减少危险执行,同时保持安全任务的性能,但效果依赖于风险类别和判别器能力。