Model-agnostic Adversarial Attack and Defense for Vision-Language-Action Models

一眼看懂封面预览

提出了 Embedding Disruption Patch Attack (EDPA)，首个针对 Vision-Language-Actio…

Card 01 研究单位

研究单位

The University of Auckland（奥克兰大学）- Haochuan Xu, Yun Sing Koh, Shuhuai Huang, Zirun Zhou, Jingfeng Zhang
King Abdullah University of Science and Technology（阿卜杜拉国王科技大学）- Di Wang, Jingfeng Zhang
Tokyo University of Science（东京理科大学）- Jun Sakuma
RIKEN Center for Advanced Intelligence Project（理研 AIP 中心）- Jun Sakuma, Jingfeng Zhang

Card 02 论文概述

提出了 Embedding Disruption Patch Attack (EDPA)，首个针对 Vision-Language-Action (VLA) 模型的模型无关对抗补丁攻击方法，无需了解目标模型架构即可生成攻击补丁
开发了基于视觉编码器对抗微调 (Adversarial Fine-tuning) 的防御策略，使 VLA 模型能够抵御此类对抗攻击
在 LIBERO 机器人仿真基准上验证了攻击的有效性：EDPA 能将 OpenVLA 的任务失败率提升约 74.7%，同时证明所提防御方法能显著降低失败率

Card 03 核心贡献

Card 04 方法描述

EDPA 攻击：优化目标结合两个损失函数——(1) Patch Contrastive Loss（补丁对比损失）：衡量干净与对抗视觉输入之间的图像块嵌入差异；(2) Image-Instruction Alignment Loss（图像-指令对齐损失）：衡量加入补丁后视觉与语言表示对齐的变化
优化公式：δ* = argmax_δ E_{v~D}[α₁·L_patch + (1-α₁)·L_align]，通过梯度上升更新对抗补丁
防御方法：使用原始视觉编码器作为基准，通过最小化两个目标的加权组合来微调新编码器——(1) 干净输入的表示应与原始编码器相似；(2) 对抗输入的表示也应接近原始编码器对干净输入的表示
训练策略：在 EDPA 训练过程中周期性地重新初始化对抗补丁，以防止过拟合到特定补丁

Card 05 数据集与资源

Card 06 评估与结果

- OpenVLA 在 EDPA 攻击下平均失败率从 14.1%-48.1%（干净）提升至 100%

- OpenVLA-OFT：EDPA 使平均失败率提升约 62.0%

- π₀：EDPA 使平均失败率提升约 31.4%

- 对抗微调后，OpenVLA 在 EDPA 攻击下的失败率平均降低 34.2%

- 对 UADA 和 UPA 攻击的失败率也分别降低 19.1% 和 36.0%

- 干净输入下失败率仅增加约 1.6%（权衡取舍）