返回列表 VLA / Vision-Language-Action 每日论文卡
Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms
本文是首篇系统综述 Vision-Language-Action (VLA) 模型安全性的论文,旨在为具身智能体的安全研究提供统一视角

论文详情

Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms

2026-04-26 · 原文 · 翻译 · 2604.23775

本文是首篇系统综述 Vision-Language-Action (VLA) 模型安全性的论文,旨在为具身智能体的安全研究提供统一视角 论文指出了VLA安全不同于文本LLM安全与传统机器人安全的独特挑战,包括不可逆的物理后果、多模态攻击面、实时约束下的安全能力权衡等 系统梳理了VLA安全领域的威胁、防御、评估与部署问题,以解决现有研究碎片化、缺乏统一框架的现状

4 分钟读完 6 张阅读卡 National University of Singapore (多位主要作者所属,包括项目主导和通…
一眼看懂 封面预览

本文是首篇系统综述 Vision-Language-Action (VLA) 模型安全性的论文,旨在为具身智能体的安全研究提供统一视角

  • 本文是首篇系统综述 Vision-Language-Action (VLA) 模型安全性的论文,旨在为具身智能体的安全研究提供统一视角
  • 论文指出了VLA安全不同于文本LLM安全与传统机器人安全的独特挑战,包括不可逆的物理后果、多模态攻击面、实时约束下的安全能力权衡等
  • 系统梳理了VLA安全领域的威胁、防御、评估与部署问题,以解决现有研究碎片化、缺乏统一框架的现状
Card 01 研究单位

研究单位

  • National University of Singapore (多位主要作者所属,包括项目主导和通讯作者)
  • Monash University (作者 Jingwen Ye 所属)
  • Peking University (作者 Bojun Zou 和 Weihao Yu 所属)
Card 02 论文概述

论文概述

  • 本文是首篇系统综述 Vision-Language-Action (VLA) 模型安全性的论文,旨在为具身智能体的安全研究提供统一视角
  • 论文指出了VLA安全不同于文本LLM安全与传统机器人安全的独特挑战,包括不可逆的物理后果、多模态攻击面、实时约束下的安全能力权衡等
  • 系统梳理了VLA安全领域的威胁、防御、评估与部署问题,以解决现有研究碎片化、缺乏统一框架的现状
Card 03 核心贡献

核心贡献

  • 提出基于“攻击时机”与“防御时机”双轴的 统一威胁与防御分类体系,将每类威胁与可被缓解的阶段进行关联
  • 全面综述了训练时攻击(如数据投毒、后门)、推理时攻击(如对抗扰动、越狱)、及对应的训练与运行时防御机制
  • 对现有 VLA安全基准与评估指标 进行了结构化分析,指出了关键缺口并提出了未来基准设计准则
  • 从六个现实部署领域出发,分析了跨域安全挑战,并指出了 认证鲁棒性、物理可实现防御 等关键未来研究方向
Card 04 方法描述

方法描述

  • 采用双轴分类法:按 攻击时机(训练时 vs. 推理时)与 防御时机(训练时 vs. 推理时)系统组织威胁与防御文献
  • 分析训练时攻击如 BadVLA、DropVLA 的目标劫持机制,以及 SilentDrift 利用动作分块视觉盲区的隐蔽漂移攻击
  • 讨论防御机制,包括训练时的安全对齐、数据完整性检查,以及推理时的决策层护栏、运行时监控和物理失效保护
Card 05 数据集与资源

数据集与资源

  • 主要讨论并分析基于 Open X-Embodiment 数据集和 LIBERO 基准训练的代表性VLA模型
  • 涵盖代表性模型如 RT-1、RT-2、Octo、OpenVLA、π₀、π₀.5、SpatialVLA,参数规模从35M至55B不等
  • 论文本身为综述,未涉及新模型的训练资源消耗细节
Card 06 评估与结果

评估与结果

  • 评估对象为现有VLA安全研究方法与基准,而非提出新模型或新实验
  • 指出当前评估指标包括 安全违规率 (SVR)、碰撞率 (CR)、攻击成功率 (ASR) 等任务级、行为级及鲁棒性指标
  • 分析发现现有安全基准开发滞后于模型能力进展,且评估多集中于仿真环境,缺乏对 仿真到现实 (Sim-to-Real) 差距 的系统性考量