Unleashing Vision-Language Semantics for Deepfake Video Detection - VLA / Vision-Language-Action 每日论文卡

一眼看懂封面预览

旨在解决现有基于视觉-语言模型(VLM)的深度伪造视频检测方法仅利用视觉特征、忽略其核心优势——潜在空间中丰富的跨模态语义——的问题。

Card 01 研究单位

研究单位

Card 02 论文概述

Card 03 核心贡献

Card 04 方法描述

整体基于CLIP视觉-语言模型构建。
ForgePerceiver：一个轻量级ViT架构，作为独立学习器，同时学习细粒度的伪造感知掩码（用于全局真实性学习）和伪造定位图（提供粗略的区域感知线索）。
身份感知VLA评分：通过将判别性身份先验注入文本提示，生成ID感知的文本特征；计算这些特征与视觉补丁标记的相似度，得到能精细突出伪造区域的VLA注意力图；该图与ForgePerceiver的伪造定位图融合，形成判别性评分。
训练包含伪造定位损失、VLA注意力损失、全局和局部真实性分类损失。

Card 05 数据集与资源

- 经典换脸伪造数据集：FF++, CelebDF v1/v2, DFDC, DeepfakeDetection (DFD)。

- 全脸生成伪造数据集：基于CelebDF-v2，由VQGAN, StyleGAN-XL, SiT-XL/2, DiT, PixArt五种生成模型创建。

Card 06 评估与结果

- 在经典换脸数据集上，VLAForge在帧级和视频级检测中均取得所有最佳成绩，AUROC最高超越次优方法2.7%（帧级，DFDC）和2.4%（视频级，DFDC）。

- 在具有挑战性的全脸生成伪造数据集上，VLAForge同样显著优于基线方法，证明其能有效捕捉内在生成痕迹和身份相关线索，展现出强大的泛化能力。