提出VLA-Forget框架,针对视觉-语言-动作(VLA)模型的机器遗忘问题,旨在移除不安全、虚假或隐私敏感的行为,同时保留感知、语言对齐和…
- 提出VLA-Forget框架,针对视觉-语言-动作(VLA)模型的机器遗忘问题,旨在移除不安全、虚假或隐私敏感的行为,同时保留感知、语言对齐和…
- 核心问题:在 OpenVLA 风格的策略中,不良知识可能分布在感知层、对齐层和推理/动作层,而非仅限单一模块,因此传统的单模态遗忘方法效果有限
- 研究目标:实现目标遗忘效能、感知保持和推理保留三个目标的联合优化
研究单位
- Florida International University - Miami, USA
- 作者:Ravi Ranjan(通讯作者)、Agoritsa Polyzou
论文概述
- 提出VLA-Forget框架,针对视觉-语言-动作(VLA)模型的机器遗忘问题,旨在移除不安全、虚假或隐私敏感的行为,同时保留感知、语言对齐和动作控制能力
- 核心问题:在 OpenVLA 风格的策略中,不良知识可能分布在感知层、对齐层和推理/动作层,而非仅限单一模块,因此传统的单模态遗忘方法效果有限
- 研究目标:实现目标遗忘效能、感知保持和推理保留三个目标的联合优化
核心贡献
- 首次将 VLA 遗忘形式化为三目标问题:目标遗忘(有效性)、感知保持(特异性)和推理保留(效用)
- 提出 VLA-Forget 混合遗忘框架,采用比率感知的选择性编辑处理感知和跨模态特异性,采用显著性分层选择编辑保留推理和动作效用
- 设计适配器优先的分阶段更新机制(基于 LoRA),兼容 OpenVLA 微调工作流,支持回滚和部署
- 提出结合具体化性能评估(任务成功率和控制稳定性)与遗忘审计(遗忘/保留分数和安全违规风险)的评估协议
- 引入结构化矛盾探测以诊断和防止 OOD 指令下的虚假成功
方法描述
- 混合选择性定位:
- 比率感知评分 φ(l) = (\|\|gᵣᶠ\|\|₂ / (\|\|θₗ\|\|₂+ε)) × (1 - cos(gᵣᶠ, gᵣʳ))^α,用于选择视觉编码器和投影器层
- 显著性比率 Sig(l) = \|\|∇θₗ L_forget\|\|₂ / (\|\|∇θₗ L_retain\|\|₂ + ε),用于选择语言/动作变换器块
- 遗忘目标:
- Retain 损失:保留非目标行为的交叉熵 + KL 散度锚定
- Forget 损失:梯度上升最大化遗忘集预测误差
- Mismatch 损失:KL 散度最大化遗忘样本与原始模型分布差异
- Perceptual preservation 损失:特征蒸馏保持视觉和投影器表示
- 分阶段训练:Stage 1 感知遗忘 → Stage 2 跨模态遗忘 → Stage 3 推理/动作遗忘
- 梯度稳定:使用 PCGrad 聚合冲突梯度
数据集与资源
- 模型:OpenVLA-7B(7B 参数)、Pi0-FAST-Base
- 数据集:
- Open X-Embodiment(真实机器人数据)
- lerobot/pusht_image(合成基准)
- 遗忘比例:30%(主实验)、70/15/15 划分(消融实验)
- 基线方法:SSD、SalUn、GA(梯度上升)、NPO(负偏好优化)
评估与结果
- 评估指标:
- FC(遗忘动作损失,越高越好)
- RC(保留效用分数,越高越好)
- FAD(遗忘准确率下降,越高越好)
- RAD(保留准确率下降,越低越好)
- TSR(任务成功率,越高越好)
- SVR(安全违规率,越低越好)
- 主要结果:
- 遗忘效能提升 10%
- 感知特异性保持 22%
- 推理和任务成功保留 9%
- 量化后恢复降低 55%
- 在 OpenVLA-7B 和 Pi0-FAST-Base 上均优于所有基线(SSD、SalUn、GA、NPO)
- 在 8-bit 和 4-bit 量化下保持较强鲁棒性
- 消融实验:单模块遗忘效果不足,完整多模态配置效果最佳;保留正则化项对保持正常任务执行至关重要