风格迁移(style transfer),指的是保留图片内容(content),将图片转换为目标风格(style)。例如下图中第一行图片分别为各种目标风格图片,第二行为在保留人像(content)的同时风格转换后的图片:
注:风格指的是图片颜色、纹理的变化等,部分论文认为内容(content)也是一种风格。
前言:
目前的风格迁移几乎大部分都是在GAN(生成对抗网络)的基础上组合AdaIn(适应性实体正则化),加上vgg网络构成的感知损失(content loss)等来进行优化;还有较为经典的pixel2pixel、cycle gan等利用成对数据或者cycle loss进行图像翻译(Image Translation)任务等。
注:
图像翻译: 有研究者认为图像翻译应该是比风格迁移更为宽泛的一个概念,比如白天黑夜的图像转换,线条图上色、春到冬、马到斑马、2D到3D转换、超分辨率重建、缺失图像修复、风格化等,这些都属于Image to Image Translation任务。总体可以总结为将输入图转换为目标图,输入图和目标图都符合其特定的数据分布。本文主要讲的是最近看的一些风格迁移论文。
AdaIn: 17年ICCV中,AdaIN横空出世,完成了任意风格迁移。AdaIN的思路不同于之前的想法,它致力于从一张图片由VGG16输出的特征图中分别提取内容和风格信息,并且将这两个信息分离开来;原始图片经过减去均值和除以方差normalize后可以减去风格,加上风格图提取的均值方差反向normalize可完成风格迁移;
U-GAT-IT: UNSUPERVISED GENERATIVE ATTENTIONAL NETWORKS WITH ADAPTIVE LAYERINSTANCE NORMALIZATION FOR IMAGE-TO-IMAGE TRANSLATION
u-gat-it适用于形变较大的人脸到二次元风格的Image to Image Translation任务。作者将注意力模块引入到整个框架的生成器和判别器部分,使模型专注于一些语义上重要的区域而忽略一些微小的区域。作者还组合了实体正则化(Instance Normalization)和层正则化(Layer Normalization)提出了自适应层实体正则化(Adaptive layer Instance Normalization)AdaLIN。AdaLIN公式帮助注意力模块更好的控制形状和纹理的改变。
整个模型结构如图,包括两个生成器
和
和两个判别器
和
,以上结构图为
和
的结构,表示source到target(真实到二次元),
和
则和它相反。
整个生成器的流程为:不成对的数据输入生成器模块,经过降采样和残差块等提取K个特征图E,辅助分类器用来学习这k个特征的权重W(类似于CAM,利用全局平均池化和全局最大池化得到权重w),最终得到注意力特征图
。特征图再输入到一个全连接层获取均值和方差,通过论文提出的AdaLIn函数得到最终normalize后的特征图,将此特征图输入解码器后得到转换后的图片。
判别器的话就是通过一个二分类网络来生成特定损失,约束生成的图片和训练数据分布一致。
注:作者认为IN和BN会统一图片风格,在生成器加IN和BN不利于生成风格多变的图片。
实际训练中,Ugatit训练速度较慢,虽然会生成部分较好的二次元风格图片,但是这种没有利用人脸关键点等信息的方法会造成部分生成的图片人物形变夸张,达不到工业应用标准。以下论文后续补充详细内容,为最近尝试的效果较好的方法:
whitebox: Learning to Cartoonize Using White-box Cartoon Representations
适合风格:真实人物 -> 偏真实的目标风格
不适合风格:油画等抽象风格
主要贡献:模拟人类绘画行为的三种表示(the surface representation, the structure representation, and the texture representation.)来构成相关的损失函数。
网络结构如上,结构较为简单,主要是各种loss:
1.预训练的VGG网络提取高维和低维特征构成structure loss和content loss;
2.surface representation模拟绘画的抽象水彩画等(通过一个滤波器得到);
3.the texture representation则类似于素描风格,通过一个color shift算法生成;
4.structure representation由KMeans聚类得到,得到结构化的色块分布。
Two-Stage Peer-Regularized Feature Recombination for Arbitrary Image Style Transfer
适合风格:风景->抽象风景
特点:同时学习多种风格,推理时输入两张图片(原图和风格图),转换结果为该风格图风格。
关键想法:内容和风格不能完全分离,内容的几何变化取决于其风格(抽象风格)。
具体做法:自编码器获得隐变量,tpfr模块先重组风格隐变量,再根据风格信息重组内容隐变量。
结果:对人脸转换效果不好,同时学习多种风格会带来风格的融合。
A Learned Representation for Artistic Style
适合风格:真实图片到各种抽象风格
特点:训练速度快且效果好,一个模型同时学习多种风格,推理时可以实现两种目标风格的融合;训练时无需收集很多图片,一张风格独特的图片就是一个目标域训练集,网络可以记录多张图片的风格信息。推理时需要两张图片,一张待转换图片,一张学习过的目标风格图片,利用作者提出的条件实体正则化函数完成特定风格的转换。