When Attention Betrays: Erasing Backdoor Attacks in Robotic Policies by Reconstructing Visual Tokens

一眼看懂封面预览

研究针对下游微调视觉-语言-动作模型在机器人应用中易受后门攻击的问题。

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

揭示了后门攻击的深层注意力攫取机制：在浅层注意力与干净样本相似，但在深层注意力显著转向触发器，且触发器嵌入在干净特征流形附近形成紧密簇，这解释了高攻击成功率与低清洁性能影响并存的现象。
提出了Bera框架，一种测试时后门擦除方法。它利用潜在空间定位异常注意力的视觉令牌，通过选择性掩码和图像重建来消除触发器，从而破坏后门映射。
该框架是即插即用的，不需要对预训练的VLA模型进行重训练或修改，降低了防御成本。
在多个机器人平台和任务上进行了广泛实验，验证了Bera能有效降低攻击成功率，显著恢复良性行为，同时很好地保持了清洁性能。
提供了完整的方法论，包括特征引导的后门定位、注意力驱动的过滤机制和无触发器图像重建。

Card 04 方法描述

Bera框架包含三个核心步骤：特征引导的后门定位（利用马氏距离在潜在空间定位偏离干净参考分布的异常令牌）、注意力驱动的过滤机制（分析深层注意力图以聚焦触发器相关区域，与定位结果取交集以精确定位）和无触发器图像重构（基于MAE思想，掩码被定位的令牌并用解码器重建无触发器图像）。
创新点：首次揭示了后门在VLA模型中的深层注意力机制；提出了一种基于注意力分析和潜在空间统计的、无需模型重训练的测试时后门消除方案。
关键技术：深度注意力分析、潜在空间马氏距离异常检测、基于注意力的空间过滤、掩码图像重建。

Card 05 数据集与资源

Card 06 评估与结果

- Bera能大幅降低攻击成功率（例如在OpenVLA抓取芬达任务上，ASR从96.67%降至6.67%），同时清洁性能损失极小（变化通常在3%以内）。

- 在权衡性能指标上，Bera全面优于ZIP、UNICORN、BTI-DBF(P)、SampDetox、SparseVLM、DeDe等基线方法。

- 消融实验证实了特征定位、注意力过滤和图像重建三个模块都是有效的，组合使用效果最佳。

- 恢复性能评估显示，Bera能将大量中毒输入恢复为正确输出（平均恢复率达74.17%），远超其他方法。

- 方法对不同的触发器比例、中毒率和触发器类型（棋盘格、瓶盖、圆形块）均表现出鲁棒性。

- 在跨实体平台部署中证明了其良好的泛化能力。