一眼看懂
封面预览
旨在解决现有基于视觉-语言模型(VLM)的深度伪造视频检测方法仅利用视觉特征、忽略其核心优势——潜在空间中丰富的跨模态语义——的问题。
- 旨在解决现有基于视觉-语言模型(VLM)的深度伪造视频检测方法仅利用视觉特征、忽略其核心优势——潜在空间中丰富的跨模态语义——的问题。
- 提出VLAForge框架,通过释放跨模态语义的潜力来增强模型在深度伪造检测中的判别能力。
- 目标是提升模型在未见过的伪造方法和身份上的泛化能力,即跨数据集性能。
Card 01
研究单位
研究单位
- 新加坡管理大学 (Singapore Management University)
- 华威大学 (The University of Warwick)
- 南洋理工大学 (Nanyang Technological University)
- 帝国理工学院 (Imperial College London)
Card 02
论文概述
论文概述
- 旨在解决现有基于视觉-语言模型(VLM)的深度伪造视频检测方法仅利用视觉特征、忽略其核心优势——潜在空间中丰富的跨模态语义——的问题。
- 提出VLAForge框架,通过释放跨模态语义的潜力来增强模型在深度伪造检测中的判别能力。
- 目标是提升模型在未见过的伪造方法和身份上的泛化能力,即跨数据集性能。
Card 03
核心贡献
核心贡献
- 提出新颖的深度伪造视频检测框架VLAForge,超越了现有VLM方法仅优化视觉表示的做法,充分利用了跨模态语义。
- 框架包含两个创新组件:ForgePerceiver 作为独立学习器捕获细微伪造线索;身份感知VLA评分模块利用身份先验增强跨模态语义的判别性。
- 在九个包含换脸和全脸生成伪造的多样化DFD数据集上进行了全面实验,证明VLAForge在跨数据集设置的帧级和视频级检测上均大幅超越现有最优方法。
Card 04
方法描述
方法描述
- 整体基于CLIP视觉-语言模型构建。
- ForgePerceiver:一个轻量级ViT架构,作为独立学习器,同时学习细粒度的伪造感知掩码(用于全局真实性学习)和伪造定位图(提供粗略的区域感知线索)。
- 身份感知VLA评分:通过将判别性身份先验注入文本提示,生成ID感知的文本特征;计算这些特征与视觉补丁标记的相似度,得到能精细突出伪造区域的VLA注意力图;该图与ForgePerceiver的伪造定位图融合,形成判别性评分。
- 训练包含伪造定位损失、VLA注意力损失、全局和局部真实性分类损失。
Card 05
数据集与资源
数据集与资源
- 训练数据集:FaceForensics++ (FF++) 的c23压缩版本。
- 评估数据集:
- 经典换脸伪造数据集:FF++, CelebDF v1/v2, DFDC, DeepfakeDetection (DFD)。
- 全脸生成伪造数据集:基于CelebDF-v2,由VQGAN, StyleGAN-XL, SiT-XL/2, DiT, PixArt五种生成模型创建。
- 实现细节见附录B。
Card 06
评估与结果
评估与结果
- 评估设置:遵循跨数据集评估协议,在FF++上训练,在其他所有数据集上测试。
- 评估指标:帧级和视频级的AUROC(受试者工作特征曲线下面积)。
- 关键结果:
- 在经典换脸数据集上,VLAForge在帧级和视频级检测中均取得所有最佳成绩,AUROC最高超越次优方法2.7%(帧级,DFDC)和2.4%(视频级,DFDC)。
- 在具有挑战性的全脸生成伪造数据集上,VLAForge同样显著优于基线方法,证明其能有效捕捉内在生成痕迹和身份相关线索,展现出强大的泛化能力。