一眼看懂
封面预览
研究针对下游微调视觉-语言-动作模型在机器人应用中易受后门攻击的问题。
- 研究针对下游微调视觉-语言-动作模型在机器人应用中易受后门攻击的问题。
- 提出一种测试时防御框架 Bera,旨在无需重训练即可检测并消除后门触发器。
- 核心目标是打破后门触发器与不安全动作的映射,恢复机器人策略的正常行为,同时保持其清洁性能。
Card 01
研究单位
研究单位
- 武汉大学 计算机学院, 武汉大学技术科学学院, 武汉大学机器人学院
- 湖北大学 人工智能学院
Card 02
论文概述
论文概述
- 研究针对下游微调视觉-语言-动作模型在机器人应用中易受后门攻击的问题。
- 提出一种测试时防御框架 Bera,旨在无需重训练即可检测并消除后门触发器。
- 核心目标是打破后门触发器与不安全动作的映射,恢复机器人策略的正常行为,同时保持其清洁性能。
Card 03
核心贡献
核心贡献
- 揭示了后门攻击的深层注意力攫取机制:在浅层注意力与干净样本相似,但在深层注意力显著转向触发器,且触发器嵌入在干净特征流形附近形成紧密簇,这解释了高攻击成功率与低清洁性能影响并存的现象。
- 提出了Bera框架,一种测试时后门擦除方法。它利用潜在空间定位异常注意力的视觉令牌,通过选择性掩码和图像重建来消除触发器,从而破坏后门映射。
- 该框架是即插即用的,不需要对预训练的VLA模型进行重训练或修改,降低了防御成本。
- 在多个机器人平台和任务上进行了广泛实验,验证了Bera能有效降低攻击成功率,显著恢复良性行为,同时很好地保持了清洁性能。
- 提供了完整的方法论,包括特征引导的后门定位、注意力驱动的过滤机制和无触发器图像重建。
Card 04
方法描述
方法描述
- Bera框架包含三个核心步骤:特征引导的后门定位(利用马氏距离在潜在空间定位偏离干净参考分布的异常令牌)、注意力驱动的过滤机制(分析深层注意力图以聚焦触发器相关区域,与定位结果取交集以精确定位)和无触发器图像重构(基于MAE思想,掩码被定位的令牌并用解码器重建无触发器图像)。
- 创新点:首次揭示了后门在VLA模型中的深层注意力机制;提出了一种基于注意力分析和潜在空间统计的、无需模型重训练的测试时后门消除方案。
- 关键技术:深度注意力分析、潜在空间马氏距离异常检测、基于注意力的空间过滤、掩码图像重建。
Card 05
数据集与资源
数据集与资源
- 使用自建的真实世界抓取数据集,包含四个任务(抓取芬达罐、抬起立方体、抽取纸巾、握手),总计1600个演示,覆盖四个不同的实体机器人平台。
- 攻击模型:使用OpenVLA和DexGraspVLA作为基准VLA模型,并在其上注入后门。
- 重建模型:采用基于MAE的轻量级解码器进行图像重建。
- 训练资源:论文中未明确指定GPU/TPU型号和数量。
Card 06
评估与结果
评估与结果
- 评估环境:在真实机器人平台上进行实验,包括一个桌面机器人、两个仿人机器人和一个UR5机械臂。
- 评估指标:清洁性能、攻击成功率、权衡性能、恢复性能。
- 关键结果:
- Bera能大幅降低攻击成功率(例如在OpenVLA抓取芬达任务上,ASR从96.67%降至6.67%),同时清洁性能损失极小(变化通常在3%以内)。
- 在权衡性能指标上,Bera全面优于ZIP、UNICORN、BTI-DBF(P)、SampDetox、SparseVLM、DeDe等基线方法。
- 消融实验证实了特征定位、注意力过滤和图像重建三个模块都是有效的,组合使用效果最佳。
- 恢复性能评估显示,Bera能将大量中毒输入恢复为正确输出(平均恢复率达74.17%),远超其他方法。
- 方法对不同的触发器比例、中毒率和触发器类型(棋盘格、瓶盖、圆形块)均表现出鲁棒性。
- 在跨实体平台部署中证明了其良好的泛化能力。