VLA-Mark: A cross modal watermark for large vision-language alignment model

一眼看懂封面预览

本文提出 VLA-Mark，一个跨模态水印框架，专门用于保护大视觉语言对齐模型（VLAMMs）生成内容的知识产权。

Card 01 研究单位

研究单位

香港科技大学（广州） / The Hong Kong University of Science and Technology (Guangzhou)
香港科技大学 / The Hong Kong University of Science and Technology
多伦多大学 / University of Toronto
蚂蚁集团（阿里巴巴） / Ant Group, Alibaba
纽约大学上海分校 / New York University Shanghai

Card 02 论文概述

Card 03 核心贡献

首创针对视觉语言模型的文本水印方法，首次利用VLA架构的原生对齐机制实现跨模态语义引导，实现了零训练开销。
提出了多尺度语义显著性度量，结合局部块亲和度（LPA）、全局语义一致性（GSC）、跨模态上下文显著性（CCS），基于视觉语义引导“绿名单”词汇选择。
设计了熵调节分区机制，根据生成过程中的不确定性（熵）动态调整水印注入强度，在低熵时优先保护语义，高熵时增强水印强度。
引入了语义关键令牌保护机制，通过层次化保护视觉语义关键令牌，显著提升了水印在释义、同义词替换、翻译等攻击下的鲁棒性。

Card 04 方法描述

VLA-Mark 是一个在推理阶段嵌入水印的后处理框架。其核心创新在于将视觉语义作为水印注入的指导。
关键技术包括：1）提取视觉嵌入和语言令牌嵌入；2）计算融合的多尺度语义显著性度量，对词汇表进行语义关键性排序；3）根据当前令牌预测分布的熵值，动态划分语义关键令牌（SCT） 列表和“绿名单”；4）对 SCT 和“绿名单”中的令牌进行对数概率提升，以嵌入可检测的统计偏差。
该方法与传统基于哈希的随机词汇分割方法形成对比，强调与图像内容的语义对齐。

Card 05 数据集与资源

Card 06 评估与结果

评估基准：与五种基线水印方法（KGW, SWEET, EWD, unbiased, DiP）在检测性能、文本质量、语义对齐和抗攻击能力方面进行比较。
主要评估指标：水印检测性能（AUC, 准确率）、文本质量（困惑度 PPL ↓, BLEU ↑）、语义对齐（STS, BertScore）。
关键实验结果：

- 水印检测：在多个VLA模型上达到接近完美的检测性能（平均 98.8% AUC）。

- 文本质量：相比基线方法，平均降低 7.4% 的困惑度（PPL），提升 26.6% 的 BLEU 分数。

- 鲁棒性：在释义、同义词替换、翻译等攻击下，保持了 96.1% 的平均AUC，显著优于所有基线方法。

- 消融实验：验证了多尺度度量（LPA、GSC、CCS）和熵调节机制各自对提升文本质量和语义一致性的必要性。