返回列表 VLA / Vision-Language-Action 每日论文卡
When Attention Betrays: Erasing Backdoor Attacks in Robotic Policies by Reconstructing Visual Tokens
研究针对下游微调视觉-语言-动作模型在机器人应用中易受后门攻击的问题。

论文详情

When Attention Betrays: Erasing Backdoor Attacks in Robotic Policies by Reconstructing Visual Tokens

2026-02-03 · 原文 · 翻译 · 2602.03153

研究针对下游微调视觉-语言-动作模型在机器人应用中易受后门攻击的问题。 提出一种测试时防御框架 Bera,旨在无需重训练即可检测并消除后门触发器。 核心目标是打破后门触发器与不安全动作的映射,恢复机器人策略的正常行为,同时保持其清洁性能。

5 分钟读完 6 张阅读卡 武汉大学 计算机学院, 武汉大学技术科学学院, 武汉大学机器人学院
一眼看懂 封面预览

研究针对下游微调视觉-语言-动作模型在机器人应用中易受后门攻击的问题。

  • 研究针对下游微调视觉-语言-动作模型在机器人应用中易受后门攻击的问题。
  • 提出一种测试时防御框架 Bera,旨在无需重训练即可检测并消除后门触发器。
  • 核心目标是打破后门触发器与不安全动作的映射,恢复机器人策略的正常行为,同时保持其清洁性能。
Card 01 研究单位

研究单位

  • 武汉大学 计算机学院, 武汉大学技术科学学院, 武汉大学机器人学院
  • 湖北大学 人工智能学院
Card 02 论文概述

论文概述

  • 研究针对下游微调视觉-语言-动作模型在机器人应用中易受后门攻击的问题。
  • 提出一种测试时防御框架 Bera,旨在无需重训练即可检测并消除后门触发器。
  • 核心目标是打破后门触发器与不安全动作的映射,恢复机器人策略的正常行为,同时保持其清洁性能。
Card 03 核心贡献

核心贡献

  • 揭示了后门攻击的深层注意力攫取机制:在浅层注意力与干净样本相似,但在深层注意力显著转向触发器,且触发器嵌入在干净特征流形附近形成紧密簇,这解释了高攻击成功率与低清洁性能影响并存的现象。
  • 提出了Bera框架,一种测试时后门擦除方法。它利用潜在空间定位异常注意力的视觉令牌,通过选择性掩码和图像重建来消除触发器,从而破坏后门映射。
  • 该框架是即插即用的,不需要对预训练的VLA模型进行重训练或修改,降低了防御成本。
  • 在多个机器人平台和任务上进行了广泛实验,验证了Bera能有效降低攻击成功率,显著恢复良性行为,同时很好地保持了清洁性能
  • 提供了完整的方法论,包括特征引导的后门定位注意力驱动的过滤机制无触发器图像重建
Card 04 方法描述

方法描述

  • Bera框架包含三个核心步骤:特征引导的后门定位(利用马氏距离在潜在空间定位偏离干净参考分布的异常令牌)、注意力驱动的过滤机制(分析深层注意力图以聚焦触发器相关区域,与定位结果取交集以精确定位)和无触发器图像重构(基于MAE思想,掩码被定位的令牌并用解码器重建无触发器图像)。
  • 创新点:首次揭示了后门在VLA模型中的深层注意力机制;提出了一种基于注意力分析和潜在空间统计的、无需模型重训练的测试时后门消除方案。
  • 关键技术:深度注意力分析、潜在空间马氏距离异常检测、基于注意力的空间过滤、掩码图像重建。
Card 05 数据集与资源

数据集与资源

  • 使用自建的真实世界抓取数据集,包含四个任务(抓取芬达罐、抬起立方体、抽取纸巾、握手),总计1600个演示,覆盖四个不同的实体机器人平台。
  • 攻击模型:使用OpenVLADexGraspVLA作为基准VLA模型,并在其上注入后门。
  • 重建模型:采用基于MAE的轻量级解码器进行图像重建。
  • 训练资源:论文中未明确指定GPU/TPU型号和数量。
Card 06 评估与结果

评估与结果

  • 评估环境:在真实机器人平台上进行实验,包括一个桌面机器人、两个仿人机器人和一个UR5机械臂。
  • 评估指标清洁性能攻击成功率权衡性能恢复性能
  • 关键结果

- Bera能大幅降低攻击成功率(例如在OpenVLA抓取芬达任务上,ASR从96.67%降至6.67%),同时清洁性能损失极小(变化通常在3%以内)。

- 在权衡性能指标上,Bera全面优于ZIPUNICORNBTI-DBF(P)SampDetoxSparseVLMDeDe等基线方法。

- 消融实验证实了特征定位、注意力过滤和图像重建三个模块都是有效的,组合使用效果最佳。

- 恢复性能评估显示,Bera能将大量中毒输入恢复为正确输出(平均恢复率达74.17%),远超其他方法。

- 方法对不同的触发器比例、中毒率和触发器类型(棋盘格、瓶盖、圆形块)均表现出鲁棒性。

- 在跨实体平台部署中证明了其良好的泛化能力。