返回列表 VLA / Vision-Language-Action 每日论文卡
SABER: A Stealthy Agentic Black-Box Attack Framework for Vision-Language-Action Models
本文提出 SABER,一个针对 Vision-Language-Action (VLA) 模型的隐蔽式黑盒对抗攻击框架,通过自动化的指令扰动来…

论文详情

SABER: A Stealthy Agentic Black-Box Attack Framework for Vision-Language-Action Models

2026-03-26 · 原文 · 翻译 · 2603.24935

本文提出 SABER,一个针对 Vision-Language-Action (VLA) 模型的隐蔽式黑盒对抗攻击框架,通过自动化的指令扰动来诱导机器人行为退化 研究目标是解决现有VLA攻击方法依赖手动设计、固定启发式或昂贵GPT搜索的问题,实现可扩展、自适应的红队测试工具

6 分钟读完 6 张阅读卡 University of Maryland, College Park, MD, USA
一眼看懂 封面预览

本文提出 SABER,一个针对 Vision-Language-Action (VLA) 模型的隐蔽式黑盒对抗攻击框架,通过自动化的指令扰动来…

  • 本文提出 SABER,一个针对 Vision-Language-Action (VLA) 模型的隐蔽式黑盒对抗攻击框架,通过自动化的指令扰动来…
  • 研究目标是解决现有VLA攻击方法依赖手动设计、固定启发式或昂贵GPT搜索的问题,实现可扩展、自适应的红队测试工具
  • 首次将VLA指令攻击形式化为带约束的序列决策优化问题,在有限编辑预算下最大化行为级对抗目标
Card 01 研究单位

研究单位

  • University of Maryland, College Park, MD, USA
  • University of Southern California, Los Angeles, CA, USA
  • University of Central Florida, Orlando, FL, USA
Card 02 论文概述

论文概述

  • 本文提出 SABER,一个针对 Vision-Language-Action (VLA) 模型隐蔽式黑盒对抗攻击框架,通过自动化的指令扰动来诱导机器人行为退化
  • 研究目标是解决现有VLA攻击方法依赖手动设计、固定启发式或昂贵GPT搜索的问题,实现可扩展、自适应的红队测试工具
Card 03 核心贡献

核心贡献

  • 首次将VLA指令攻击形式化为带约束的序列决策优化问题,在有限编辑预算下最大化行为级对抗目标
  • 提出基于GRPO训练的ReAct攻击智能体,无需目标VLA梯度即可自适应组合字符级、词元级和提示级扰动工具
  • 设计三阶段攻击流程(FIND→APPLY协议),支持任务失败、动作膨胀、约束违反三种攻击目标
  • LIBERO基准上实现平均20.6%任务成功率下降55%动作序列长度增加33%约束违反增加
  • 相比GPT-4o基线,减少21.1%工具调用54.7%字符编辑,显著提升攻击隐蔽性和效率
Card 04 方法描述

方法描述

  • SABER采用多轮ReAct工具调用范式,攻击智能体通过两阶段FIND→APPLY工作流生成扰动:

- FIND阶段:识别候选编辑位置和策略(词元索引、字符位置、提示插入点)

- APPLY阶段:执行具体编辑操作(替换/删除/添加/属性交换)

  • 工具箱涵盖三类扰动:字符级(拼写错误、OCR式扰动)、词元级(子词编辑)、提示级(注入验证/分解/不确定性子句)
  • 使用GRPO(Group Relative Policy Optimization)进行强化学习训练,结合LoRA高效微调,仅依赖 rollout 反馈而无需目标模型梯度
  • 奖励函数融合对抗目标奖励(任务失败/动作膨胀/约束违反)与隐蔽性惩罚(工具调用数、字符编辑距离)
Card 05 数据集与资源

数据集与资源

  • 数据集LIBERO基准(包含Spatial、Object、Goal、Long四个任务套件)
  • 目标模型:六种SOTA VLA模型——π₀-LIBEROπ₀.₅GR00T-N1.5X-VLAInternVLA-M1DeepThinkVLA
  • 训练框架ART (Agent Reinforcement Trainer),支持ReAct风格工具调用
  • 计算资源:未明确提及具体GPU/TPU配置
Card 06 评估与结果

评估与结果

  • 评估环境:LIBERO模拟环境,对比干净基线rollout与攻击rollout
  • 核心指标

- TER(Task Execution Rate):任务执行率

- ASR(Attack Success Rate):攻击成功率 = Base TER - Attack TER

- AIR(Action Inflation Ratio):动作膨胀比 = \|a_attack\|/ \|a_base\|

- CVI(Constraint Violation Increase):约束违反增量

  • 关键结果

- 任务失败目标:平均ASR达20.6%,最高48.9%(LIBERO-Goal)

- 动作膨胀目标:平均AIR达1.55×,最高2.69×(DeepThinkVLA在Goal套件)

- 约束违反目标:平均CVI提升33%

- 工具效率:相比GPT-4o基线,工具调用减少21.1%,字符编辑减少54.7%