返回列表 VLA / Vision-Language-Action 每日论文卡
Concept-Based Dictionary Learning for Inference-Time Safety in Vision Language Action Models
论文关注 Vision Language Action (VLA) 模型的安全性问题,特别是越狱攻击或显式有害指令可能导致实体机器人执行危险的…

论文详情

Concept-Based Dictionary Learning for Inference-Time Safety in Vision Language Action Models

2026-02-02 · 原文 · 翻译 · 2602.01834

论文关注 Vision Language Action (VLA) 模型的安全性问题,特别是越狱攻击或显式有害指令可能导致实体机器人执行危险的物理动作。 提出了一种名为 SAFE-Dict 的即插即用框架,利用基于概念的字典学习在推理时对潜在表征进行安全控制。 该方法无需重新训练模型,即可有效防御显式有害指令和对抗性越狱攻击,大幅降低攻击成功率。

5 分钟读完 6 张阅读卡 Beijing Jiaotong University(北京交通大学)
一眼看懂 封面预览

论文关注 Vision Language Action (VLA) 模型的安全性问题,特别是越狱攻击或显式有害指令可能导致实体机器人执行危险的…

  • 论文关注 Vision Language Action (VLA) 模型的安全性问题,特别是越狱攻击或显式有害指令可能导致实体机器人执行危险的…
  • 提出了一种名为 SAFE-Dict 的即插即用框架,利用基于概念的字典学习在推理时对潜在表征进行安全控制。
  • 该方法无需重新训练模型,即可有效防御显式有害指令和对抗性越狱攻击,大幅降低攻击成功率。
Card 01 研究单位

研究单位

  • Beijing Jiaotong University(北京交通大学)
  • King Abdullah University of Science and Technology(阿卜杜拉国王科技大学)
  • University of Auckland(奥克兰大学)
  • RIKEN Center for Advanced Intelligence Project(理研先进智能项目中心)
  • Mohamed bin Zayed University of Artificial Intelligence(穆罕默德·本·扎耶德人工智能大学)
Card 02 论文概述

论文概述

  • 论文关注 Vision Language Action (VLA) 模型的安全性问题,特别是越狱攻击或显式有害指令可能导致实体机器人执行危险的物理动作。
  • 提出了一种名为 SAFE-Dict 的即插即用框架,利用基于概念的字典学习在推理时对潜在表征进行安全控制。
  • 该方法无需重新训练模型,即可有效防御显式有害指令和对抗性越狱攻击,大幅降低攻击成功率。
Card 03 核心贡献

核心贡献

  • 提出了一个基于概念字典学习的推理时安全控制框架,这是首个针对具身系统的推理时概念级安全方法。
  • 构建了可解释的概念字典,通过提取概念方向并计算有害分数,在表示层面抑制或阻断不安全激活。
  • 实现了模型无关的即插即用防御机制,无需微调或访问训练数据即可与不同的 VLA 模型无缝集成。
  • 在多个基准测试中建立了新的 SOTA 防御性能,将攻击成功率降低了 70% 以上,同时保持了任务成功率。
Card 04 方法描述

方法描述

  • 概念挖掘与刺激构建:使用 VLM 从数据集中提取语义概念,并利用 LLM 生成包含单个目标概念的自然语言刺激句子。
  • 概念字典学习:提取模型对刺激的隐藏层激活,使用基于 PCA 的方法估计概念方向,构建稀疏且可解释的概念字典。
  • 推理时安全控制:通过 ElasticNet 将推理时的激活投影到概念字典上,计算加权有害分数。
  • 干预策略:当有害分数超过阈值时,通过衰减有害概念方向的系数来重构隐藏状态,从而消除不安全意图。
Card 05 数据集与资源

数据集与资源

  • 评估基准数据集:Libero-Harm(本文构建)、BadRobotRoboPAIRIS-Bench
  • 主要评估模型:Llama-3.2-VisionQwen2-VLQwen2.5-VL
  • 辅助模型:使用 Qwen2.5-VL 进行概念提取,使用 Qwen-3 生成刺激句子。
Card 06 评估与结果

评估与结果

  • 评估环境包括显式有害指令、对抗性越狱攻击和多步交互安全场景。
  • 主要评估指标包括攻击成功率 (ASR)、任务成功率 (SR) 和安全成功率 (SSR)。
  • Libero-Harm 数据集上,该方法将 ASR 从默认的 84.7% 降低至 7.8%
  • BadRobot 攻击下,Llama-3.2-Vision 模型的 ASR 从 73.83% 降至 6.30%,Qwen2-VL 模型的 ASR 从 29.52% 降至 5.43%
  • IS-Bench 多步交互场景中,该方法在保持较高任务成功率的同时,显著提升了安全召回率 (SRec) 和安全成功率。