进化的隐藏水印：深度学习提升版权保护的鲁棒性

一、前言

过去几年，以网络视频为代表的泛网络视听领域的崛起，是互联网经济飞速发展最为夺目的大事件之一。泛网络视听领域不仅是21世纪以来互联网领域的重要基础应用、大众文化生活的主要载体，而且在推动中国经济新旧动能转化方面也发挥了重要作用。据中国网络视听节目服务协会发布的《2021中国网络视听发展研究报告》显示，截至2020年12月，我国网络视听用户规模达9.44亿，2020年泛网络视听产业规模破6000亿元。然而，自泛网络视听诞生之初，盗版如同一颗毒瘤一样蔓延滋长，危害与日俱增，加强网络版权保护，任务紧迫而艰巨。

版权保护技术是指针对盗版侵权行为的确权存证以及监测、取证等技术。当前，区块链、人工智能、数字水印等版权保护应用主要集中在版权确权、监测、取证等环节；其中数字水印技术在版权确权、版权监测环节有着重要应用价值，数字水印具有查找侵权、追根溯源的能力，相比其他技术可以进一步实现对侵权行为的追踪溯源。

数字水印技术是将版权信息、唯一标识信息等以可见或不可见的方式嵌入数字作品载体中，用于证明作品来源。其中不可见的隐藏水印，具有肉眼不可发现但算法可以检测的特性，能够抵抗一定程度的剪切、拼接和编辑等操作。然而，随着盗版技术的不断升级，传统隐藏水印技术在复杂攻击场景中的鲁棒性面临着更加艰巨的挑战。攻击者可以通过复杂多样的编辑处理技术破坏被保护载体中所隐藏的版权信息，使得版权水印提取失效。本文针对这一问题，分享一种使用深度学习技术来加强隐藏水印的鲁棒性的方法；如下图所示，该技术能够在高效、轻量的计算下，有效的提升隐藏水印技术在多种复杂攻击下的鲁棒性。

二、技术背景

1、隐写术（Steganography）

隐写术一般指的是向图像或者视频等信息载体中嵌入隐秘信息，其中大部分隐写术算法都是基于空域等知识进行信息嵌入。近年来图像隐写术的发展也是层出不穷，从最早期的LSB、LSB-Match到内容自适应隐写术：HUGO[1]（空域自适应隐写算法）、WOW[2]、SUNIWARD[3]，再到如今的深度学习隐写术。隐写算法已经可以自动的将隐秘信息嵌入到纹理、噪声丰富的图像区域，并保持复杂的图像高阶统计特性。

2、隐写分析（Steganalysis）

隐写分析是通过对图像的统计特性进行分析，判断图像中是否隐藏有额外的信息甚至估计信息嵌入量、获取隐藏信息内容的技术。目前的隐写分析研究领域通常将隐写分析看成一个二分类问题，目标是区分载体图像和载密图像。下图展示隐写分析的例子（图例来自数据集BOSSbase_1.0.1）。

左图为载体图像，中间为载密图像，右图为差异图像（载体图像与载密图像之间的差异图像）。
隐写分析方法一般分为两类。一类是基于传统特征的图像隐写分析方法，这一类方法主要包含特征提取、特征增强和特征分类器三部分；其中特征提取与增强部分对于后面训练分类器有着决定性的作用，且特征选择非常依赖于人工，存在耗时长、鲁棒性差等缺陷，代表的隐写分析模型有 SPAM[4]、SRM[5]、DCTR[6]等。另一类方法是基于深度学习的隐写分析方法，模型主要分为半学习模型和全学习模型。半学习模型依靠SRM的30个滤波核作为预处理层来进行网络的学习，代表的网络有Xu-Net[7]、Ye-Net[8]等。全学习模型则完全依靠深度神经网络强大的学习能力从纷繁复杂的像素信息中学习到重要的残差特征信息，代表的深度网络SRNet[9]等。全学习深度网络在检测精度上要优于半学习深度网络并且更具有鲁棒性。

3、数字水印（Digital WaterMarking）

数字水印技术是指将特定的编码信息嵌入到数字信号中，数字信号可能是音频、图像或是视频等。若要拷贝有数字水印的信号，所嵌入的信息也会一并被拷贝。数字水印技术是一种基于内容的、非密码机制的计算机信息隐藏技术，是保护信息安全、实现防伪溯源、版权保护的有效办法。数字水印一般分为明水印和隐藏水印。隐藏水印通过在载体数据（音频、视频等）中添加隐藏标记，在一般情况下无法被人眼以及机器所辨识。隐藏水印的重要应用之一就是保护著作权，期望能借此避免或阻止数字媒体未经授权的复制和拷贝。

4、水印检测

隐藏水印信息检测的方法一般有两种。一种是基于自相关的检测方法，这种方法是根据水印嵌入算法提出的相关函数生成对应的检测算法，另一种则是利用模版匹配的方法，该方法利用图像处理中模板匹配的思想，在添加水印时制定一个模板，通过模板来添加水印；在检测水印时，在待测图像上使用模板进行相似度计算；当相似度超过设定的阈值时便认定检出水印，反之则无水印。

5、联系与区别

隐写术&隐写分析(Steganography&Steganalysis)：隐写术更注重于嵌入信息的隐蔽性，即如何嵌入才能让载密图像无法被敌手察觉异常，通常载密图像在通讯中是无损的；隐写分析则期望在载体数据无损的情况下，判断一张图像是载密图像还是原始图像。

数字水印(Digital WaterMarking) 更注重嵌入信息的鲁棒性，含水印信息的载体在传播过程中会受到诸如：压缩、裁剪、放缩、剪辑等攻击。需要保证在面对这种攻击情势下，数字水印仍然可以保持有效性，这是版权保护的一个重要前提。

三、深度学习识别隐藏水印

与数字隐写相比，隐藏水印除了要求水印的隐蔽性，还更加注重水印信息的鲁棒性。隐藏水印载体在真实场景下中会遇到很多复杂且未知的攻击，这通常会导致水印信息的部分或整体特征被破坏，最终导致水印信息无法被检测或者完整提取。传统的水印检测方法多是基于相关性检测、模版提取等方法确定载体中是否有水印。这些方法在面对复杂攻击时效果较差，而且不同隐藏水印添加的特征多种多样，因此针对特定水印方法设计单独的分析检测方案耗时费力。深度学习在处理这些问题上则天生具有优势，我们可以在训练过程中模拟现实攻击提升鲁棒性，使用多种水印算法数据混合提升模型的泛化能力。

1、数据集构建

由于传统数据集存在训练图片尺寸单一、数据量级小等缺陷，我们构建了一个包含1000个视频和20w张图片的原始载体数据集；载体数据集中尽量保证了数据多样化与多元化，包含了电影、人物、风景、科技、音乐、卡通等多种不同风格的视频和图像。我们在该数据集上制作隐藏水印数据集，隐藏水印数据集中包括了多种视频和图像水印算法，最终我们将原始载体集和水印集进行合并作为我们的训练集。

数据集的质量直接影响到模型最终的表达能力。因此我们对训练集进行了清洗，我们使用多种图像质量模型对载体质量进行了过滤和清洗。为了充分验证模型的泛化能力，我们使用现实场景中积累的真实数据作为验证集，并对其进行标注和扩增，在验证集上应用一些复杂的变换来模拟现实中的复杂且未知的攻击形式。

2、模型训练

2.1 模型

从精度以及性能两个方面的指标来考虑，我们选用轻量级神经网络MobileNetV3[10]系列中的MobileNetV3_small和MobileNetV3_large作为备选模型，并针对水印识别任务对模型架构进行调整，以使其更适合该任务。MobileNet系列模型不论从精度还是性能都在各类计算机视觉任务上展现出了优异的成绩，它使用深度可分离卷积来构建轻量级的深层神经网络，能够在延迟度和准确度之间有效地进行平衡。为了比较计算机视觉领域的深度模型与图像隐写分析深度模型之间的差异，我们同时选用SRNet作为备选模型之一。
下表是对选定的三个备选模型进行前置训练（相同实验环境下）在测试集上的结果，我们从模型的性能方面与精度方面进行综合考察。可见MobileNetV3_large不论在精度和速度上都要比SRNet要更胜一筹。因此选用MobileNetV3_large模型作为识别隐藏水印的基础模型。

2.2 训练

隐藏水印检测的鲁棒性是我们最关心的指标，盗窃者在盗窃作品后可能会对作品进行一系列的改造、混淆与变换。这也就意味着我们的隐藏水印会面临着多种多样的攻击形式，比如常见的有平移、翻转（镜像）、高斯模糊、颜色抖动、仿射变换、随机裁剪等，复杂的形式有拼接、图像混合、图像剪切粘贴、信息压缩、格式转化等。为了提升模型在检测时对这些变换手段的鲁棒性，我们在训练阶段尽可能的模拟数据在网络传输中可能遇到的攻击变换形式来进行数据增强，进一步提升模型的泛化能力。下表展示了不同数据增强情形下对于模型在验证集上的泛化能力：

最终我们在训练阶段使用混合的数据增强形式，对于数据先进行概率性的翻转处理、平移填充、不同比例压缩、图像混合等处理，最后再将数据进行随机裁剪处理，并保证在经过数据变换后要保证数据中还包含隐藏水印特征。

3. 泛化性

合适的优化器配上合适的学习率衰减策略能够加速模型的收敛速度以及学习特征的能力。我们使用带有权重惩罚项的Adamw优化器搭配上余弦退火衰减策略在测试集以及验证集上获得了不错的精度。我们在收集到的训练集上使用Adamw优化器以及CosineAnnealingWarmRestarts学习率衰减策略对MobileNetV3_large模型进行训练。在测试集上达到了97.15%的准确率。

在面临多种未知组合攻击的业务场景下，我们的模型整体达到了92.08%的准确率；在将水印检测模型与水印提取模型串联时，能够在不牺牲精度的情况下提升2倍以上的水印处理速度；在并联时，能够显著提升复杂攻击场景下的水印算法的鲁棒性。

四、总结

数字水印技术是保护创作者的合法权益的重要手段。为了逃避侵权风险、谋求利益，盗版者会通过多种方法对原创作品进行编辑，这就要求添加的数字水印能够在这种未知情形下仍然能发挥作用持续的为创作者保驾护航。当载体数据受到恶意修改时可能会导致其中的水印无法识别，这将严重影响版权保护技术的鲁棒性。而深度学习技术可以让模型理解隐藏水印中人类无法感知的特征，能够帮助我们召回那些被破坏的数字水印信息，有效地提升隐藏水印技术在真实场景中的鲁棒性和可靠性。

本文提及的算法均已在抖音、飞书、今日头条、西瓜视频中的视频、图片、网页等敏感场景中落地，取得不错的效果。其中飞书已全端场景应用隐藏水印算法，在具体实践上，隐藏水印算法能够加强飞书客户内部信息安全管理，防止截屏、拍照泄密。此外，通过隐藏水印还可以有效帮助企业用户实现版权保护与链路追踪，具有准确性高、实效性高、抗攻击强及体验无感等诸多优势，为用户提供从物理到应用层面的全方位安全护航。

五、参考文献

Pevný T, Filler T, Bas P. Using high-dimensional image models to perform highly undetectable steganography. International Workshop on Information Hiding. Springer, Berlin, Heidelberg, 2010: 161-177.
Holub V, Fridrich J. Designing steganographic distortion using directional filters. 2012 IEEE International workshop on information forensics and security (WIFS). IEEE, 2012: 234-239.
Holub V, Fridrich J. Digital image steganography using universal distortion. Proceedings of the first ACM workshop on Information hiding and multimedia security. 2013: 59-68
Jindal N, Liu B. Review spam detection. Proceedings of the 16th international conference on World Wide Web. 2007: 1189-1190.
Fridrich J, Kodovsky J. Rich models for steganalysis of digital images. IEEE Transactions on Information Forensics and Security, 2012, 7(3): 868-882.
Holub V, Fridrich J. Low-complexity features for JPEG steganalysis using undecimated DCT. IEEE Transactions on Information Forensics and Security, 2014, 10(2): 219-228.
Xu G, Wu H Z, Shi Y Q. Structural design of convolutional neural networks for steganalysis. IEEE Signal Processing Letters, 2016, 23(5): 708-712.
Ye J, Ni J, Yi Y. Deep learning hierarchical representations for image steganalysis. IEEE Transactions on Information Forensics and Security, 2017, 12(11): 2545-2557.
Boroumand M, Chen M, Fridrich J. Deep residual network for steganalysis of digital images[J]. IEEE Transactions on Information Forensics and Security, 2018, 14(5): 1181-1193.
Howard, Andrew G. et al. “Searching for MobileNetV3.” 2019 IEEE/CVF International Conference on Computer Vision (ICCV) (2019): 1314-1324.

（完）