优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

本文作者：汪思颖

2017-09-27 16:46

导语：对于图像编辑任务，现在面临的两个重要的挑战分别是：如何提升生成图像的质量和如何灵活控制生成图像内容。如何解决，王超岳带来详细解读。

雷锋网 AI科技评论按，近些年来，生成对抗网络在许多图像生成和图像编辑任务上都获得了很大的成功，并受到越来越多的关注。对于图像编辑任务，现在面临的两个重要的挑战分别是：如何指导网络向目标图像学习（以提升图像编辑的效果）和如何感知输入图像内容（以提升图像编辑的精度）。

悉尼科技大学 FEIT 三年级博士生，优必选悉尼AI研究院访问学生，陶大程教授学生王超岳在雷锋网 AI研习社主办的学术青年分享会上结合他的两篇论文Tag Disentangled Generative Adversarial Networks for Object Image Re-rendering（IJCAI 2017 Best student paper）和Perceptual Adversarial Networks for Image-to-Image Transformation（arXiv 2017），分享了对图像编辑做出的相应探索。

分享内容如下：

常见的图像编辑有图像去雨（雪）、图像填充、素描到照片、风格转换、图像超分辨率、图像上色、图像旋转、时间变换等，抽象来说就是给定一张图像以及要求，来生成新的图像。即让机器理解图像和生成图像。

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

生成对抗网络是由Goodfellow在2014年提出的，算是一种新的网络架构，可以做有监督或无监督的学习。

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

基于GANs的图像编辑框架如下所示：

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

接下来介绍第一篇论文，用于图像转换任务的感知对抗网络（Perceptual Adversarial Network，PAN）。

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

近两年基于GANs的框架，有很多不同的优化，下图是对Pixel-wise loss、GANs loss和Perceptual loss的对比工作。

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

Pixel loss优点是使用简单、训练速度快、稳定，缺点是输出图像模糊，质量低。

GAN loss优点是能提升生成图像质量，更加真实，锐利，缺点是学习整体生成分布，无法单独使用。

Perceptual loss优点是注重图像包含的高维特征，感知效果，缺点是受限于预训练的其他网络。

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

下面是对提升生成图像质量做出的一些研究，引入不同的loss来生成不同的输出图像。

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

他们希望有新的loss函数来弥补现有的问题，持续缩小生成图像和真实图像的差距。基于这样的想法提出了感知对抗损失。优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

使用感知对抗损失的理由如下：

感知：衡量生成图像和真实图像的高维特征的差异，并致力于缩小他们。

对抗：当现有高维特征的差异小于一定数值m ，D网络被更新以寻找新的高维空间，以进一步缩小仍存在的不同。

统一：所有训练统一在一个GAN框架中，无需引入其他预训练网络，且不受任务限制。

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

他们引入感知对抗loss加GAN loss的结构，在这里引入GAN loss来让生成图像的整体分布符合真实图像的整体分布。

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

下面是针对于这个网络的相关实验，主要有图像的去雨、从分割后的label的图像到街景的重现、卫星图到谷歌地图的转换、图像补全、素描生成真实图像的任务。

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

下面是对比图像去雨雪的任务，他们的模型在色差的控制等方面都有所提升。

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

下面是图像补全任务，对比CVPR 2016的Context Encoder，PAN能得到更加优化的效果。

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

进行Pixel2pixel实验时与pix2pix做了对比，也可以看到明显提升。

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

解决图像生成的质量之后，还有一个问题：interpretable。也就是如何解开神经网络的黑箱，并帮助计算机进一步理解图像。

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

针对于如何在图像转换过程中理解整个网络，并控制中间层信息的表征，他们提出标签分解生成对抗网络(Tag Disentangled Generative Adversarial Networks, TDGAN)，用于进行目标图像的再次渲染(Re-rendering)。

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

给定输入图像，里面会包含一系列的输入信息，人脑看到之后很容易分理出这些信息，但之前的网络很难理解这些信息，因此很难对输入图像进行精细编辑，现在他们想要让网络能更进一步理解这些信息。

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

他们提出分解表征法。

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

解决方案:标签。只要简单的改变标签，就能很容易生成微笑的图像。

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

基于此，他们提出TDGAN，包括下图四个子网络。

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

网络的框架图如下：

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

主要有f1、f2、f3、f4四个约束项：

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

这四个子网络采用如下交替训练的形式：

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

下面是工作相应的实验结果，给定单张椅子，给定一些想要的角度，可以生成不同角度的效果，另外可以生成人在不同光线及表情下的效果。

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

下图是他们在两个数据集下做的一些任务。可以通过给定单张椅子照片，生成不同角度的椅子；也可以控制输入人脸图像的多种性质，如改变其角度，光照，表情等。

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结

总结如下：现有的很多方法都是在GANs的框架下，希望提升现有的图像编辑效果和提升图像编辑的精度，他们做了以下尝试，去让任务表现更好。

第一是从学习的层面，不再只是从像素层面或固定高维空间上去缩小真实图像和转换图像之间的不同，而是利用对抗学习的思想去持续寻找并缩小真实图像和转换图像之间尚存的差异。另一方面，他们希望算法可以更深入的理解图像，并帮助计算机能更加智能，通过提取和分解图像中包含的各种信息，让算法可以更精确的编辑图像，从而得到想要的结果。

优必选悉尼 AI 研究院王超岳：基于生成对抗网络的图像编辑方法 | 分享总结