一眼看懂
封面预览
本文提出 VLA-Mark,一个跨模态水印框架,专门用于保护大视觉语言对齐模型(VLAMMs)生成内容的知识产权。
- 本文提出 VLA-Mark,一个跨模态水印框架,专门用于保护大视觉语言对齐模型(VLAMMs)生成内容的知识产权。
- 核心目标是解决传统文本水印方法在应用到视觉语言模型时,会破坏视觉-文本语义对齐、降低文本质量的问题。
- 论文旨在设计一种无需模型重训练,能在保持跨模态语义保真度的同时,嵌入高可检测性、高鲁棒性水印的解决方案。
Card 01
研究单位
研究单位
- 香港科技大学(广州) / The Hong Kong University of Science and Technology (Guangzhou)
- 香港科技大学 / The Hong Kong University of Science and Technology
- 多伦多大学 / University of Toronto
- 蚂蚁集团(阿里巴巴) / Ant Group, Alibaba
- 纽约大学上海分校 / New York University Shanghai
Card 02
论文概述
论文概述
- 本文提出 VLA-Mark,一个跨模态水印框架,专门用于保护大视觉语言对齐模型(VLAMMs)生成内容的知识产权。
- 核心目标是解决传统文本水印方法在应用到视觉语言模型时,会破坏视觉-文本语义对齐、降低文本质量的问题。
- 论文旨在设计一种无需模型重训练,能在保持跨模态语义保真度的同时,嵌入高可检测性、高鲁棒性水印的解决方案。
Card 03
核心贡献
核心贡献
- 首创针对视觉语言模型的文本水印方法,首次利用VLA架构的原生对齐机制实现跨模态语义引导,实现了零训练开销。
- 提出了多尺度语义显著性度量,结合局部块亲和度(LPA)、全局语义一致性(GSC)、跨模态上下文显著性(CCS),基于视觉语义引导“绿名单”词汇选择。
- 设计了熵调节分区机制,根据生成过程中的不确定性(熵)动态调整水印注入强度,在低熵时优先保护语义,高熵时增强水印强度。
- 引入了语义关键令牌保护机制,通过层次化保护视觉语义关键令牌,显著提升了水印在释义、同义词替换、翻译等攻击下的鲁棒性。
Card 04
方法描述
方法描述
- VLA-Mark 是一个在推理阶段嵌入水印的后处理框架。其核心创新在于将视觉语义作为水印注入的指导。
- 关键技术包括:1)提取视觉嵌入和语言令牌嵌入;2)计算融合的多尺度语义显著性度量,对词汇表进行语义关键性排序;3)根据当前令牌预测分布的熵值,动态划分语义关键令牌(SCT) 列表和“绿名单”;4)对 SCT 和“绿名单”中的令牌进行对数概率提升,以嵌入可检测的统计偏差。
- 该方法与传统基于哈希的随机词汇分割方法形成对比,强调与图像内容的语义对齐。
Card 05
数据集与资源
数据集与资源
- 使用的数据集:AMBER 数据集(用于图像描述任务),并在附录中补充了 MS COCO 数据集上的评估。
- 测试的骨干模型包括:LLaVA-v1.5, LLaVA-Next, Qwen2-VL, DeepSeek-VL。
- 模型规模与训练资源:论文主要使用现成的开源大型视觉语言模型进行评估,未提及具体的模型参数量或训练资源细节,强调方法为零训练开销。
Card 06
评估与结果
评估与结果
- 评估基准:与五种基线水印方法(KGW, SWEET, EWD, unbiased, DiP)在检测性能、文本质量、语义对齐和抗攻击能力方面进行比较。
- 主要评估指标:水印检测性能(AUC, 准确率)、文本质量(困惑度 PPL ↓, BLEU ↑)、语义对齐(STS, BertScore)。
- 关键实验结果:
- 水印检测:在多个VLA模型上达到接近完美的检测性能(平均 98.8% AUC)。
- 文本质量:相比基线方法,平均降低 7.4% 的困惑度(PPL),提升 26.6% 的 BLEU 分数。
- 鲁棒性:在释义、同义词替换、翻译等攻击下,保持了 96.1% 的平均AUC,显著优于所有基线方法。
- 消融实验:验证了多尺度度量(LPA、GSC、CCS)和熵调节机制各自对提升文本质量和语义一致性的必要性。