返回列表 VLA / Vision-Language-Action 每日论文卡
Model-agnostic Adversarial Attack and Defense for Vision-Language-Action Models
提出了 Embedding Disruption Patch Attack (EDPA),首个针对 Vision-Language-Actio…

论文详情

Model-agnostic Adversarial Attack and Defense for Vision-Language-Action Models

2025-10-15 · 原文 · 翻译 · 2510.13237

提出了 Embedding Disruption Patch Attack (EDPA),首个针对 Vision-Language-Action (VLA) 模型的模型无关对抗补丁攻击方法,无需了解目标模型架构即可生成攻击补丁 开发了基于视觉编码器对抗微调 (Adversarial Fine-tuning) 的防御策略,使 VLA 模型能够抵御此类对抗攻击 在 LIBERO 机器人仿真基准上验证了攻击的有效性:ED…

7 分钟读完 6 张阅读卡 The University of Auckland(奥克兰大学)- Haochuan Xu, Yun…
一眼看懂 封面预览

提出了 Embedding Disruption Patch Attack (EDPA),首个针对 Vision-Language-Actio…

  • 提出了 Embedding Disruption Patch Attack (EDPA),首个针对 Vision-Language-Actio…
  • 开发了基于视觉编码器对抗微调 (Adversarial Fine-tuning) 的防御策略,使 VLA 模型能够抵御此类对抗攻击
  • 在 LIBERO 机器人仿真基准上验证了攻击的有效性:EDPA 能将 OpenVLA 的任务失败率提升约 74.7%,同时证明所提防御方法能显…
Card 01 研究单位

研究单位

  • The University of Auckland(奥克兰大学)- Haochuan Xu, Yun Sing Koh, Shuhuai Huang, Zirun Zhou, Jingfeng Zhang
  • King Abdullah University of Science and Technology(阿卜杜拉国王科技大学)- Di Wang, Jingfeng Zhang
  • Tokyo University of Science(东京理科大学)- Jun Sakuma
  • RIKEN Center for Advanced Intelligence Project(理研 AIP 中心)- Jun Sakuma, Jingfeng Zhang
Card 02 论文概述

论文概述

  • 提出了 Embedding Disruption Patch Attack (EDPA),首个针对 Vision-Language-Action (VLA) 模型的模型无关对抗补丁攻击方法,无需了解目标模型架构即可生成攻击补丁
  • 开发了基于视觉编码器对抗微调 (Adversarial Fine-tuning) 的防御策略,使 VLA 模型能够抵御此类对抗攻击
  • LIBERO 机器人仿真基准上验证了攻击的有效性:EDPA 能将 OpenVLA 的任务失败率提升约 74.7%,同时证明所提防御方法能显著降低失败率
Card 03 核心贡献

核心贡献

  • EDPA 攻击方法:通过破坏视觉与文本潜在表示之间的语义对齐,以及最大化对抗样本与干净样本之间的潜在表示差异,生成可直接放置在相机视野中的对抗补丁
  • 模型无关性:与之前需要了解模型架构和机械臂参数的 UADA 和 UPA 攻击不同,EDPA 仅需访问编码器参数,更适用于实际场景
  • 对抗微调防御:提出视觉编码器的对抗微调方案,鼓励编码器为对抗视觉输入生成与干净输入相似的潜在表示
  • 广泛的评估:在多种 SOTA VLA 模型(OpenVLA、OpenVLA-OFT、π₀)上验证了攻击和防御的有效性
  • 注意力可视化分析:通过展示对抗补丁如何改变语言 token 对视觉输入的注意力分布,揭示攻击机制
Card 04 方法描述

方法描述

  • EDPA 攻击:优化目标结合两个损失函数——(1) Patch Contrastive Loss(补丁对比损失):衡量干净与对抗视觉输入之间的图像块嵌入差异;(2) Image-Instruction Alignment Loss(图像-指令对齐损失):衡量加入补丁后视觉与语言表示对齐的变化
  • 优化公式:δ* = argmax_δ E_{v~D}[α₁·L_patch + (1-α₁)·L_align],通过梯度上升更新对抗补丁
  • 防御方法:使用原始视觉编码器作为基准,通过最小化两个目标的加权组合来微调新编码器——(1) 干净输入的表示应与原始编码器相似;(2) 对抗输入的表示也应接近原始编码器对干净输入的表示
  • 训练策略:在 EDPA 训练过程中周期性地重新初始化对抗补丁,以防止过拟合到特定补丁
Card 05 数据集与资源

数据集与资源

  • 数据集LIBERO 机器人仿真基准,包含四个任务套件(Spatial、Object、Goal、Long),每个任务套件有 10 个任务
  • 评估模型:OpenVLA、OpenVLA-OFT、π₀(均为在 LIBERO 上微调后的模型)
  • 补丁尺寸:50×50 像素(固定),输入图像分辨率 224×224
  • 训练配置:最大迭代次数 T=50,000,批量大小 16,学习率 η=1×10⁻⁵,α₁=0.8(攻击),α₂=0.5(防御)
Card 06 评估与结果

评估与结果

  • 评估指标:Failure Rate (FR) 失败率 = 1 - 成功率
  • 攻击效果

- OpenVLA 在 EDPA 攻击下平均失败率从 14.1%-48.1%(干净)提升至 100%

- OpenVLA-OFT:EDPA 使平均失败率提升约 62.0%

- π₀:EDPA 使平均失败率提升约 31.4%

  • 防御效果

- 对抗微调后,OpenVLA 在 EDPA 攻击下的失败率平均降低 34.2%

- 对 UADA 和 UPA 攻击的失败率也分别降低 19.1% 和 36.0%

- 干净输入下失败率仅增加约 1.6%(权衡取舍)

  • 与基线对比:EDPA 明显优于随机噪声补丁,OpenVLA 在 EDPA 下失败率比随机噪声高约 53.0%
  • 多相机设置:使用多相机视角的 VLA 模型(OpenVLA-OFT、π₀)表现出更强的对抗鲁棒性