一眼看懂
封面预览
首个针对预训练 VLA 基础模型的后门攻击,在用户微调后仍能保持高攻击成功率,攻击在预分发阶段执行,攻击者无法访问用户数据或下游训练
- 首个针对预训练 VLA 基础模型的后门攻击,在用户微调后仍能保持高攻击成功率,攻击在预分发阶段执行,攻击者无法访问用户数据或下游训练
- 提出选择性注入框架,利用参数稳定性分析识别微调不敏感模块,并仅针对这些组件注入后门,确保后门在用户干净数据微调后仍然存活,同时保持正常性能
- 在多个 VLA 架构、模拟环境和真实机器人任务上进行综合实验,INFUSE 在 LIBERO 上达到 95.3% 平均 ASR,在 Simpl…
Card 01
论文概述
论文概述
Card 02
研究单位
研究单位
- Harbin Institute of Technology, Shenzhen(中国)
- Harbin Institute of Technology(中国)
- Meituan Academy of Robotics Shenzhen, Meituan(中国)
- Shanghai Jiaotong University(中国)
- National University of Singapore(新加坡)
- Central South University(中国)
Card 03
论文概述
论文概述
- 提出 INFUSE(Injection into Fine-tune-Insensitive Modules),首个针对预训练 VLA 基础模型的后门攻击框架,能够在用户微调后仍然保持攻击有效性,解决现有 VLA 后门攻击在下游适应过程中容易被清除的问题
- 研究问题:VLA 模型直接控制物理机器人,恶意行为可能对人身安全和财产造成严重危害;现有后门攻击方法假设攻击者能控制用户微调过程,且在用户使用干净数据进行微调后,后门会被迅速覆盖
- 核心思路:通过分析不同微调场景下的参数敏感性,识别在下游适应过程中保持稳定的"微调不敏感模块",仅在这些稳定模块中注入后门,从而确保恶意行为在用户微调后仍然有效
Card 04
核心贡献
核心贡献
- 首个针对预训练 VLA 基础模型的后门攻击,在用户微调后仍能保持高攻击成功率,攻击在预分发阶段执行,攻击者无法访问用户数据或下游训练
- 提出选择性注入框架,利用参数稳定性分析识别微调不敏感模块,并仅针对这些组件注入后门,确保后门在用户干净数据微调后仍然存活,同时保持正常性能
- 在多个 VLA 架构、模拟环境和真实机器人任务上进行综合实验,INFUSE 在 LIBERO 上达到 95.3% 平均 ASR,在 SimplerEnv 上达到 91.7%,在真实世界任务上达到 79.8%,显著超越 BadVLA(31.7%、39.4%、36.6%),同时保持 95.0% 的干净任务性能
Card 05
方法描述
方法描述
- 三阶段框架:
- 阶段一:微调不敏感模块识别:构建模块级稳定性谱,从参数和表示漂移计算稳定性分数,选择在代表性下游适应中始终表现稳定的模块
- 阶段二:选择性后门注入:仅更新阶段一识别的稳定模块,使用包含触发器和恶意目标动作的毒化数据进行训练,其他参数冻结,生成毒化基础 VLA 模型
- 阶段三:用户侧微调:模拟用户在干净数据上的下游适应,验证注入的后门仍然有效
- 稳定性度量:使用三个互补的漂移度量(Mean Absolute Parameter Difference、Fisher-normalized Difference、CKA-based Activation Shift)组合成统一稳定性分数
Card 06
数据集与资源
数据集与资源
- 数据集:LIBERO-90(预训练注入)、LIBERO-Spatial/Goal/Object/10(下游任务)、Bridge 数据集、SimplerEnv WidowX 任务、真实世界 Franka Research 3 机器人实验
- 模型规模:OpenVLA-7B、π0.5、SpatialVLA-4B
- 评估任务:Knock Over、Cover with Towel、Pick into Box 等桌面操作任务
Card 07
评估与结果
评估与结果
- 评估指标:Attack Success Rate (ASR)
- 关键结果:
- LIBERO 基准:INFUSE 平均 ASR 95.3%,BadVLA 仅 31.7%
- SimplerEnv:INFUSE 91.7%,BadVLA 39.4%
- 真实机器人:INFUSE 79.8%,BadVLA 36.6%
- 消融实验:完全模型注入 42.2%,敏感模块注入 10.8%,验证针对不敏感模块注入的关键性
- 防御评估:JPEG 压缩、高斯噪声、参数审计等防御下 ASR 仍保持在 87-95%
- 结论:INFUSE 揭示了一个关键安全威胁——在分发前植入的后门可以持久存在于微调过程中,并在部署时保持有效