引用次数最多的深度学习论文出自谁手？（无监督学习/生成模型篇）

本文作者：这只萌萌

2017-04-10 09:59

导语：有一些深度学习论文，无论它们属于哪个应用领域，都值得仔细研习。本篇是论文推荐列表的第三篇（无监督学习/生成模型篇）。

雷锋网AI科技评论：我们通常都会学习前辈或大牛的经典作品，而引用次数自然也成为了论文的一个重要标杆。在GitHub上，@Terryum整理了一份精心编写的论文推荐列表，其中包含了在深度学习领域中引用次数最多的前100篇论文（自2012年起）。

有一些深度学习论文，无论它们属于哪个应用领域，都值得仔细研习。文章在精不在多，雷锋网提供的这些文章，都被认为是值得一读的优秀论文。囿于篇幅限制，雷锋网整理编译了无监督学习/生成模型的七篇论文，并增加了论文的概要，方便读者快速了解。

自然图像分布的建模在无监督学习中是一个里程碑式的难题，因为图像的高维度和高结构性，建模时需要考虑模型的可表达性，可控性和可扩展性，这使得很多模型在建立时以牺牲性能为代价，才能提取出有意义的图像表征。来自Google的Aaron van den Oord，Nal Kalchbrenner和Koray Kavukcuoglu在《Pixel Recurrent Neural Networks》一文中提出了一种能连续预测图像像素的二维RNN模型（PixelRNN）和全卷积网络CNN模型（PixelCNN）。作者对原像素的离散概率建模，并编码了完整的图像依赖关系。模型在MNIST和CIFAR-10上进行了测试，取得的对数似然函数值明显优于当下的技术发展水平。最后作者还给出了PixelRNN生成的一个样本定性评估。

[1] Pixel recurrent neural networks (2016), A. Oord et al. [pdf]

来自OpenAI 的多位技术专家联合发表了一篇名为《Improved Techniques for Training GANs》的论文，他们在论文中给出了训练GAN模型时应用的一些技巧。这些技巧的应用使得他们在MNIST,CIFAR-10和SVHN数据集的半监督分类问题中取得了目前技术发展的最高水平。视觉图灵测试证实了模型生成图像的高质量，连肉眼也无法分辨模型生成的MNIST样本和真实数据的区别，而模型生成的CIFAR-10样本，人类判断的错误率为21.3%。模型生成的ImageNet样本更是达到了空前未有的分辨率。作者在文章提出，这些技巧使得模型能够学习ImageNet类的可辨别特征。

[2] Improved techniques for training GANs (2016), T. Salimans et al. [pdf]

近几年在计算机视觉领域，卷积神经网络在有监督学习问题上得到了大量应用，而在无监督学习问题上却鲜少有人关注。Alec Radford，Luke Metz和Soumith Chintala在论文《Unsupervised representation learning with deep convolutional generative adversarial networks》中介绍了一类名为深度卷积生成式对抗网络（DCGAN）的CNN模型，并认为这种模型很适合无监督学习问题。通过在不同的图像数据集上训练，模型在生成器和判别器上，从物体物件到场景图像，都能学习到的一种层次的表征。最后，将学习到的特征应用到新任务中，证明了它们作为通用图像表征的适用性。

[3] Unsupervised representation learning with deep convolutional generative adversarial networks (2015), A. Radford et al. [pdf]

《DRAW: A Recurrent Neural Network For Image Generation》一文出自Google的DeepMind实验室，介绍了一种可应用于图像生成的Deep Recurrent Attentive Writer（DRAW）神经网络模型，此模型能够生成高质量的自然图像，并提高了当前在MNIST数据集上生成模型表现的最好水平。此外，使用SVHN数据集训练的DRAW模型生成的图片，裸眼无法分辨其与真实数据的区别。

[4] DRAW: A recurrent neural network for image generation (2015), K. Gregor et al. [pdf]

作为生成对抗网络（GAN）的开山之作，《Generative Adversarial Nets》论文初次提出了这种对抗过程估计生成模型的新框架，文中同时训练了两个模型，一个生成模型G（获取数据分布），一个判别模型D（估计样本来自训练数据集或者生成模型G 的概率）。生成模型G的训练目标是最大化判别模型D犯错的概率。这个模型类似于两个人在玩极小极大算法的游戏。对于任意的函数G和D，存在唯一解，使得G恢复训练数据分布，而D处处为1/2。当G和D由多层感知器定义时，整个系统都可以用反向传播算法来训练。在训练和样本生成过程中不需要任何的马尔科夫链或者unrolled approximate inference。实验通过对生成样本的定性和定量评估，证明了此框架的潜力。

[5] Generative adversarial nets (2014), I. Goodfellow et al. [pdf]

在面对连续的潜变量，复杂的后验分布和数据集庞大的情况下，贝叶斯概率模型（directed probabilistic models）如何进行有效的推理和学习？Diederik P. Kingma 和Max Welling在《Auto-Encoding Variational Bayes》一文中提出了一种随机变分推理和学习算法，能够适应庞大的数据集和弱可微条件。论文提出了一种新的变分下界估计，可以直接应用SGD来优化和调整。另外，论文引入了自动编码变分贝叶斯（AEVB），这是针对有效推理和学习的一种高效算法。

[6] Auto-encoding variational Bayes (2013), D. Kingma and M. Welling [pdf]

“有没有可能从无标签的图像数据中学习一个面部特征器？”《Building High-level Features Using Large Scale Unsupervised Learning》一文讨论了关于大规模无监督高层特征构建的问题。论文作者基于庞大的图像数据集，训练了一个9层的局部连接稀疏自编码网络模型，模型带有池化层和局部对比归一化层。通过模型并行化和异步SGD在1000个机器（16000个核）上训练了3天，由此证明了从无标签图像数据中训练面部特征器是可行的。对照实验表明，训练出来的特征探测器在平移，缩放和平面外旋转上都体现了鲁棒性。除此之外，相同网络对于其他高层概念的探测表现的很灵敏，比如对猫脸、人类身体结构的探测。通过这些学习到的特征，训练的网络在识别22000类物体的ImageNet数据集上获得了15.8%的准确率，相对之前的最高水平有了70% 的性能提升。

[7] Building high-level features using large scale unsupervised learning (2013), Q. Le et al. [pdf]

本文只介绍了列表中属于无监督学习/生成模型的七篇引用次数最多的论文，对于其他类别的论文，请参考作者其他编译文章或者原文链接：https://github.com/terryum/awesome-deep-learning-papers#unsupervised--generative-models，雷锋网编译。

9人收藏

这只萌萌

知情人士

发私信

当月热门文章