返回列表 VLA / Vision-Language-Action 每日论文卡
Inject Once Survive Later: Backdooring Vision-Language-Action Models to Persist Through Downstream Fine-tuning
首个针对预训练 VLA 基础模型的后门攻击,在用户微调后仍能保持高攻击成功率,攻击在预分发阶段执行,攻击者无法访问用户数据或下游训练

论文详情

Inject Once Survive Later: Backdooring Vision-Language-Action Models to Persist Through Downstream Fine-tuning

2026-01-31 · 原文 · 翻译 · 2602.00500

Harbin Institute of Technology, Shenzhen(中国) Harbin Institute of Technology(中国) Meituan Academy of Robotics Shenzhen, Meituan(中国) Shanghai Jiaotong University(中国) National University of Singapore(新加坡) Central…

6 分钟读完 7 张阅读卡 Harbin Institute of Technology, Shenzhen(中国)
一眼看懂 封面预览

首个针对预训练 VLA 基础模型的后门攻击,在用户微调后仍能保持高攻击成功率,攻击在预分发阶段执行,攻击者无法访问用户数据或下游训练

  • 首个针对预训练 VLA 基础模型的后门攻击,在用户微调后仍能保持高攻击成功率,攻击在预分发阶段执行,攻击者无法访问用户数据或下游训练
  • 提出选择性注入框架,利用参数稳定性分析识别微调不敏感模块,并仅针对这些组件注入后门,确保后门在用户干净数据微调后仍然存活,同时保持正常性能
  • 在多个 VLA 架构、模拟环境和真实机器人任务上进行综合实验,INFUSE 在 LIBERO 上达到 95.3% 平均 ASR,在 Simpl…
Card 01 论文概述

论文概述

Card 02 研究单位

研究单位

  • Harbin Institute of Technology, Shenzhen(中国)
  • Harbin Institute of Technology(中国)
  • Meituan Academy of Robotics Shenzhen, Meituan(中国)
  • Shanghai Jiaotong University(中国)
  • National University of Singapore(新加坡)
  • Central South University(中国)
Card 03 论文概述

论文概述

  • 提出 INFUSE(Injection into Fine-tune-Insensitive Modules),首个针对预训练 VLA 基础模型的后门攻击框架,能够在用户微调后仍然保持攻击有效性,解决现有 VLA 后门攻击在下游适应过程中容易被清除的问题
  • 研究问题:VLA 模型直接控制物理机器人,恶意行为可能对人身安全和财产造成严重危害;现有后门攻击方法假设攻击者能控制用户微调过程,且在用户使用干净数据进行微调后,后门会被迅速覆盖
  • 核心思路:通过分析不同微调场景下的参数敏感性,识别在下游适应过程中保持稳定的"微调不敏感模块",仅在这些稳定模块中注入后门,从而确保恶意行为在用户微调后仍然有效
Card 04 核心贡献

核心贡献

  • 首个针对预训练 VLA 基础模型的后门攻击,在用户微调后仍能保持高攻击成功率,攻击在预分发阶段执行,攻击者无法访问用户数据或下游训练
  • 提出选择性注入框架,利用参数稳定性分析识别微调不敏感模块,并仅针对这些组件注入后门,确保后门在用户干净数据微调后仍然存活,同时保持正常性能
  • 在多个 VLA 架构、模拟环境和真实机器人任务上进行综合实验,INFUSE 在 LIBERO 上达到 95.3% 平均 ASR,在 SimplerEnv 上达到 91.7%,在真实世界任务上达到 79.8%,显著超越 BadVLA(31.7%、39.4%、36.6%),同时保持 95.0% 的干净任务性能
Card 05 方法描述

方法描述

  • 三阶段框架

- 阶段一:微调不敏感模块识别:构建模块级稳定性谱,从参数和表示漂移计算稳定性分数,选择在代表性下游适应中始终表现稳定的模块

- 阶段二:选择性后门注入:仅更新阶段一识别的稳定模块,使用包含触发器和恶意目标动作的毒化数据进行训练,其他参数冻结,生成毒化基础 VLA 模型

- 阶段三:用户侧微调:模拟用户在干净数据上的下游适应,验证注入的后门仍然有效

  • 稳定性度量:使用三个互补的漂移度量(Mean Absolute Parameter Difference、Fisher-normalized Difference、CKA-based Activation Shift)组合成统一稳定性分数
Card 06 数据集与资源

数据集与资源

  • 数据集:LIBERO-90(预训练注入)、LIBERO-Spatial/Goal/Object/10(下游任务)、Bridge 数据集、SimplerEnv WidowX 任务、真实世界 Franka Research 3 机器人实验
  • 模型规模:OpenVLA-7B、π0.5、SpatialVLA-4B
  • 评估任务:Knock Over、Cover with Towel、Pick into Box 等桌面操作任务
Card 07 评估与结果

评估与结果

  • 评估指标:Attack Success Rate (ASR)
  • 关键结果

- LIBERO 基准:INFUSE 平均 ASR 95.3%,BadVLA 仅 31.7%

- SimplerEnv:INFUSE 91.7%,BadVLA 39.4%

- 真实机器人:INFUSE 79.8%,BadVLA 36.6%

- 消融实验:完全模型注入 42.2%,敏感模块注入 10.8%,验证针对不敏感模块注入的关键性

- 防御评估:JPEG 压缩、高斯噪声、参数审计等防御下 ASR 仍保持在 87-95%

  • 结论:INFUSE 揭示了一个关键安全威胁——在分发前植入的后门可以持久存在于微调过程中,并在部署时保持有效