提出并构建了 HazardArena 基准测试，旨在评估视觉-语言-动作 (VLA) 模型在具有语义风险的受控环境中的语义安全性。

论文详情

HazardArena: Evaluating Semantic Safety in Vision-Language-Action Models

2026-04-14 · 原文 · 翻译 · 2604.12447

提出并构建了 HazardArena 基准测试，旨在评估视觉-语言-动作 (VLA) 模型在具有语义风险的受控环境中的语义安全性。指出当前 VLA 评估主要关注动作执行的成功与否，导致动作策略与视觉-语言语义松耦合，存在结构性漏洞：正确的动作执行可能在语义风险下导致不安全结果。旨在通过“安全/不安全双胞胎场景”的设计，显式揭示并评估 VLA 模型是否真正具备语义安全约束意识，而非仅仅具备动作执行能力。

5 分钟读完 6 张阅读卡 Fudan University

一眼看懂封面预览

提出并构建了 HazardArena 基准测试，旨在评估视觉-语言-动作 (VLA) 模型在具有语义风险的受控环境中的语义安全性。

提出并构建了 HazardArena 基准测试，旨在评估视觉-语言-动作 (VLA) 模型在具有语义风险的受控环境中的语义安全性。
指出当前 VLA 评估主要关注动作执行的成功与否，导致动作策略与视觉-语言语义松耦合，存在结构性漏洞：正确的动作执行可能在语义风险下导致不安全…
旨在通过“安全/不安全双胞胎场景”的设计，显式揭示并评估 VLA 模型是否真正具备语义安全约束意识，而非仅仅具备动作执行能力。

Card 01 研究单位

研究单位

Fudan University
Shanghai Innovation Institute
City University of Hong Kong

Card 02 论文概述

论文概述

提出并构建了 HazardArena 基准测试，旨在评估视觉-语言-动作 (VLA) 模型在具有语义风险的受控环境中的语义安全性。
指出当前 VLA 评估主要关注动作执行的成功与否，导致动作策略与视觉-语言语义松耦合，存在结构性漏洞：正确的动作执行可能在语义风险下导致不安全结果。
旨在通过“安全/不安全双胞胎场景”的设计，显式揭示并评估 VLA 模型是否真正具备语义安全约束意识，而非仅仅具备动作执行能力。

Card 03 核心贡献

核心贡献

识别并阐述了当前 VLA 系统的一个结构性漏洞：动作执行能力并不能可靠反映其对视觉-语言语义的安全约束。
引入了 HazardArena 基准，基于“安全/不安全双胞胎场景”构建，证明了即使模型仅在安全数据上训练，在对应的危险场景中仍可能表现出不安全行为。
提出了一种无需训练的 Safety Option Layer (SOL)，通过在动作执行前引入语义判断（属性规则或视觉语言判别器），有效缓解语义安全漏洞，同时保持任务性能。

Card 04 方法描述

方法描述

采用“安全/不安全双胞胎场景”构建方法，每个危险场景对应一个语义安全且动作需求完全一致的孪生场景，仅语义上下文不同，从而隔离并评估语义风险。
创新性地引入了“阶段性评估指标”，包括 attempt_rate、commit_rate 和 success_rate，以量化动作意图和接近危险完成的程度，超越二元终端结果的评估。
提出了轻量级的 Safety Option Layer (SOL)，分为 L1 层（基于可审计属性规则的语义门控）和 L2 层（使用外部视觉-语言模型进行安全判别），在推理时拦截语义不安全的动作。

Card 05 数据集与资源

数据集与资源

数据集：构建了包含超过 2000 个资产和 40 个风险敏感任务的 HazardArena 基准，覆盖 7 个现实世界的风险类别（如食品安全、财产安全、化学、隐私、火灾、人身、电气等）。
评估模型：测试了包括 OpenVLA-OFT、π₀、NORA、VLA-Adapter 等代表性 VLA 模型。
训练资源：所有模型仅在安全演示轨迹（600条轨迹，6个安全任务）上进行微调，以控制执行能力并评估语义安全泛化。

Card 06 评估与结果

评估与结果

评估环境：在模拟的物理环境中进行，采用 HazardArena 的安全/不安全双胞胎场景。
评估指标：主要使用 success_rate (SR)、attempt_rate 和 commit_rate，其中 commit_rate 用于衡量接近危险完成的程度。
关键结果：在仅安全数据微调的模型中，随着安全任务成功率的提升，对应危险任务的成功率也随之上升，表明操作能力增强导致危险行为增加。阶段性指标（如 commit_rate）比终端成功率能更准确地揭示不安全行为的进展。Safety Option Layer (SOL) 能显著减少危险执行，同时保持安全任务的性能，但效果依赖于风险类别和判别器能力。