SABER: A Stealthy Agentic Black-Box Attack Framework for Vision-Language-Action Models

一眼看懂封面预览

本文提出 SABER，一个针对 Vision-Language-Action (VLA) 模型的隐蔽式黑盒对抗攻击框架，通过自动化的指令扰动来…

Card 01 研究单位

研究单位

Card 02 论文概述

本文提出 SABER，一个针对 Vision-Language-Action (VLA) 模型的隐蔽式黑盒对抗攻击框架，通过自动化的指令扰动来诱导机器人行为退化
研究目标是解决现有VLA攻击方法依赖手动设计、固定启发式或昂贵GPT搜索的问题，实现可扩展、自适应的红队测试工具

Card 03 核心贡献

Card 04 方法描述

- FIND阶段：识别候选编辑位置和策略（词元索引、字符位置、提示插入点）

- APPLY阶段：执行具体编辑操作（替换/删除/添加/属性交换）

工具箱涵盖三类扰动：字符级（拼写错误、OCR式扰动）、词元级（子词编辑）、提示级（注入验证/分解/不确定性子句）
使用GRPO（Group Relative Policy Optimization）进行强化学习训练，结合LoRA高效微调，仅依赖 rollout 反馈而无需目标模型梯度
奖励函数融合对抗目标奖励（任务失败/动作膨胀/约束违反）与隐蔽性惩罚（工具调用数、字符编辑距离）

Card 05 数据集与资源

数据集：LIBERO基准（包含Spatial、Object、Goal、Long四个任务套件）
目标模型：六种SOTA VLA模型——π₀-LIBERO、π₀.₅、GR00T-N1.5、X-VLA、InternVLA-M1、DeepThinkVLA
训练框架：ART (Agent Reinforcement Trainer)，支持ReAct风格工具调用
计算资源：未明确提及具体GPU/TPU配置

Card 06 评估与结果

- TER（Task Execution Rate）：任务执行率

- ASR（Attack Success Rate）：攻击成功率 = Base TER - Attack TER

- AIR（Action Inflation Ratio）：动作膨胀比 = \|a_attack\|/ \|a_base\|

- CVI（Constraint Violation Increase）：约束违反增量

- 任务失败目标：平均ASR达20.6%，最高48.9%（LIBERO-Goal）

- 动作膨胀目标：平均AIR达1.55×，最高2.69×（DeepThinkVLA在Goal套件）

- 约束违反目标：平均CVI提升33%

- 工具效率：相比GPT-4o基线，工具调用减少21.1%，字符编辑减少54.7%