NVIDIA论文：用GAN生成高清图像 | ICLR 2018

本文作者：岑大师

2017-10-31 05:56

专题：ICLR 2018

导语：NVIDIA在Blog上就发布了一篇通过生成对抗网络（GAN）产生独特面孔的新方法，这篇论文正是NVIDIA投递到ICLR的论文之一。

虽然ICLR 2018将公开评审改成了评审人和作者相互不知道双方信息的双盲评审，但论文的投稿者仍然可以通过其他公开渠道对其论文进行推广。尤其对于大公司研究院来说，早早公开自己的论文能比盲审有额外加成，例如雷锋网就注意到，就在上周五ICLR论文投递截止后不久，NVIDIA在Blog上就发布了一篇通过生成对抗网络（GAN）产生独特面孔的新方法，这篇论文正是NVIDIA投递到ICLR的论文之一。

NVIDIA论文：用GAN生成高清图像 | ICLR 2018

论文题目：Progressive Growing of GANs for Improved Quality, Stability, and Variation

摘要：在本文中，我们描述了生成对抗网络（GAN）的新的训练方法。关键思想是通过渐进的方式训练生成器和鉴别器：从低分辨率开始，我们逐步添加新的层次，从而在训练进展中增加更精细的细节。这既加快了训练速度，又能增加训练的稳定性，从而使我们能够制作出前所未有的质量的图像，例如用1024x1024像素的CelebA图像（雷锋网注：CelebA是香港中文大学发布的20多万的名人人脸数据库，被很多算法用来训练）制作更高精度的数据集。我们还提出了一种增加生成图像变化的简单方法，并且在无监督的CIFAR10中实现了创记录的8.80的初始分数。此外，我们描述了几个实现细节，这些细节对于抑制生成器和鉴别器之间的不健康竞争非常重要。最后，我们提出了一个新的衡量GAN结果的指标，无论是在图像质量和变化方面。作为额外的贡献，我们构建了更高质量的CelebA数据集。

在论文中NVIDIA称，在从高维数据分布生成新样本的方法在图像领域中被广泛使用，主流算法包括自回归模型（Autoregressive Models）、变化自动编码器（VAE）和生成对抗网络（GAN）。这几种算法都有着各自的优势和劣势：自回归模型（如PixelCNN）能产生清晰的图像，但评估速度较慢，而且由于其直接对像素的条件分布直接建模，因此没有潜在的表征，这也进一步限制了其适用性；VAE易于训练，但生成的结果往往是模糊的；GAN可以生成清晰的图像，但在分辨率上只能有小范围的变化，而且质量一直不稳定；混合方法可以结合上述三种方法的优势，但在图像质量上仍落后于GAN。

NVIDIA的主要改进方法是使用改进的Wasserstein Loss（关于用Wasserstein GAN生成图片请参阅雷锋网之前文章：《令人拍案叫绝的Wasserstein GAN》），同时也尝试最小二乘法损失。由于生成高分辨率图像之所以困难是因为这一过程中会极大放大梯度问题，而且由于内存的限制，大图片还要分割成若干块分别计算，从而影响了训练的稳定性。而NVIDIA的做法是从简单的低分辨率图像开始，在训练时逐步添加更高分辨率细节的层次，从而大大加快了训练和提高高分辨率的稳定性。

让我们来看一下图片生成的效果。

下图是训练开始2个多小时候，8X8的效果。

NVIDIA论文：用GAN生成高清图像 | ICLR 2018