Inject Once Survive Later: Backdooring Vision-Language-Action Models to Persist Through Downstream Fine-tuning

一眼看懂封面预览

首个针对预训练 VLA 基础模型的后门攻击，在用户微调后仍能保持高攻击成功率，攻击在预分发阶段执行，攻击者无法访问用户数据或下游训练

Card 01 论文概述

论文概述

Card 02 研究单位

Card 03 论文概述

提出 INFUSE（Injection into Fine-tune-Insensitive Modules），首个针对预训练 VLA 基础模型的后门攻击框架，能够在用户微调后仍然保持攻击有效性，解决现有 VLA 后门攻击在下游适应过程中容易被清除的问题
研究问题：VLA 模型直接控制物理机器人，恶意行为可能对人身安全和财产造成严重危害；现有后门攻击方法假设攻击者能控制用户微调过程，且在用户使用干净数据进行微调后，后门会被迅速覆盖
核心思路：通过分析不同微调场景下的参数敏感性，识别在下游适应过程中保持稳定的"微调不敏感模块"，仅在这些稳定模块中注入后门，从而确保恶意行为在用户微调后仍然有效

Card 04 核心贡献

首个针对预训练 VLA 基础模型的后门攻击，在用户微调后仍能保持高攻击成功率，攻击在预分发阶段执行，攻击者无法访问用户数据或下游训练
提出选择性注入框架，利用参数稳定性分析识别微调不敏感模块，并仅针对这些组件注入后门，确保后门在用户干净数据微调后仍然存活，同时保持正常性能
在多个 VLA 架构、模拟环境和真实机器人任务上进行综合实验，INFUSE 在 LIBERO 上达到 95.3% 平均 ASR，在 SimplerEnv 上达到 91.7%，在真实世界任务上达到 79.8%，显著超越 BadVLA（31.7%、39.4%、36.6%），同时保持 95.0% 的干净任务性能

Card 05 方法描述

- 阶段一：微调不敏感模块识别：构建模块级稳定性谱，从参数和表示漂移计算稳定性分数，选择在代表性下游适应中始终表现稳定的模块

- 阶段二：选择性后门注入：仅更新阶段一识别的稳定模块，使用包含触发器和恶意目标动作的毒化数据进行训练，其他参数冻结，生成毒化基础 VLA 模型

- 阶段三：用户侧微调：模拟用户在干净数据上的下游适应，验证注入的后门仍然有效

稳定性度量：使用三个互补的漂移度量（Mean Absolute Parameter Difference、Fisher-normalized Difference、CKA-based Activation Shift）组合成统一稳定性分数

Card 06 数据集与资源

数据集：LIBERO-90（预训练注入）、LIBERO-Spatial/Goal/Object/10（下游任务）、Bridge 数据集、SimplerEnv WidowX 任务、真实世界 Franka Research 3 机器人实验
模型规模：OpenVLA-7B、π0.5、SpatialVLA-4B
评估任务：Knock Over、Cover with Towel、Pick into Box 等桌面操作任务

Card 07 评估与结果

- LIBERO 基准：INFUSE 平均 ASR 95.3%，BadVLA 仅 31.7%

- SimplerEnv：INFUSE 91.7%，BadVLA 39.4%

- 真实机器人：INFUSE 79.8%，BadVLA 36.6%

- 消融实验：完全模型注入 42.2%，敏感模块注入 10.8%，验证针对不敏感模块注入的关键性

- 防御评估：JPEG 压缩、高斯噪声、参数审计等防御下 ASR 仍保持在 87-95%