VLA-Forget: Vision-Language-Action Unlearning for Embodied Foundation Models

一眼看懂封面预览

提出VLA-Forget框架，针对视觉-语言-动作（VLA）模型的机器遗忘问题，旨在移除不安全、虚假或隐私敏感的行为，同时保留感知、语言对齐和…

Card 01 研究单位

研究单位

Card 02 论文概述

提出VLA-Forget框架，针对视觉-语言-动作（VLA）模型的机器遗忘问题，旨在移除不安全、虚假或隐私敏感的行为，同时保留感知、语言对齐和动作控制能力
核心问题：在 OpenVLA 风格的策略中，不良知识可能分布在感知层、对齐层和推理/动作层，而非仅限单一模块，因此传统的单模态遗忘方法效果有限
研究目标：实现目标遗忘效能、感知保持和推理保留三个目标的联合优化

Card 03 核心贡献

Card 04 方法描述

- 比率感知评分 φ(l) = (\|\|gᵣᶠ\|\|₂ / (\|\|θₗ\|\|₂+ε)) × (1 - cos(gᵣᶠ, gᵣʳ))^α，用于选择视觉编码器和投影器层

- 显著性比率 Sig(l) = \|\|∇θₗ L_forget\|\|₂ / (\|\|∇θₗ L_retain\|\|₂ + ε)，用于选择语言/动作变换器块

- Retain 损失：保留非目标行为的交叉熵 + KL 散度锚定

- Forget 损失：梯度上升最大化遗忘集预测误差

- Mismatch 损失：KL 散度最大化遗忘样本与原始模型分布差异

- Perceptual preservation 损失：特征蒸馏保持视觉和投影器表示

Card 05 数据集与资源

- Open X-Embodiment（真实机器人数据）

- lerobot/pusht_image（合成基准）

- 遗忘比例：30%（主实验）、70/15/15 划分（消融实验）

Card 06 评估与结果

- FC（遗忘动作损失，越高越好）

- RC（保留效用分数，越高越好）

- FAD（遗忘准确率下降，越高越好）

- RAD（保留准确率下降，越低越好）

- TSR（任务成功率，越高越好）

- SVR（安全违规率，越低越好）

- 遗忘效能提升 10%

- 感知特异性保持 22%

- 推理和任务成功保留 9%

- 量化后恢复降低 55%

- 在 OpenVLA-7B 和 Pi0-FAST-Base 上均优于所有基线（SSD、SalUn、GA、NPO）

- 在 8-bit 和 4-bit 量化下保持较强鲁棒性