深度学习的爆发要归功给谁？Yann LeCun、François Chollet各执一词

本文作者：杨晓凡

编辑：郭奕欣

2018-01-24 15:02

导语：AlexNet 之前的故事有几人了解？

雷锋网 AI 科技评论按：自从深度学习在各项任务中频频取得佳绩、人工智能的研究员也越来越受追捧以来，许多人都加入了相关领域开始工作或者学习。不过，除了元老级的教授和研究人员之外，恐怕多数后来者都不是特别清楚神经网络的干柴是如何被点燃成熊熊烈火的。

近日 Ian Goodfellow、François Chollet、Yann LeCun 等人就在推特上简单讨论了「深度学习是怎么火起来的？应该归功给谁？」雷锋网 AI 科技评论把他们的讨论内容整理如下。

Ian Goodfellow

「GANs 之父」、谷歌大脑高级研究员 Ian Goodfellow 首先发推说道：

「看到很多人把深度学习看作是通过反向传播完成的监督学习，这事真的很奇怪，要知道 2006 年的深度学习革命最初就是基于反向传播和监督学习两件事都不是很奏效的观点的。」

在这条推文下面与网友的讨论中，Ian Goodfellow 也继续补充说明了自己的观点：

监督学习和基于梯度的优化方法，两者的实际表现都比人们开始想象的要好，所以做深度学习的人才开始用它们了。
（回复网友「Hinton 的无监督预训练和深度置信网络并没能给深度学习带来什么突破。6 年后使用了监督学习和反向传播的 AlexNet 才是突破（当然了还有 GPU、卷积层、ReLU、dropout）」）无监督预训练和深度置信网络是另一件 2006 开始的更大的变革的一部分。Yoshua 的实验室在去噪和压缩自动编码器的堆叠上做了很多工作，Yann 的实验室在预测性稀疏分解等模型的堆叠上做了很多工作。

François Chollet 和 Yann LeCun

Keras作者、谷歌大脑高级研究员 François Chollet 几个小时后也发出推文：

「我看到很多人都言之凿凿地说深度学习的大爆发开始于 Krizhevsky 等人 2012 年的成果。但是我很少看到有人记得 Ciresan 等人也有功劳，他们 2011 年的时候就用 CUDA 实现深度卷积网络、在 NVIDIA GPU 上训练，并赢得了图像分类比赛冠军。」「我指的是 IJCNN 2011 上的德国交通信号灯识别比赛，以及 ICDAR 2011 中文手写字符识别比赛。」

然后（话很多的） François Chollet 也在下面评论区继续着讨论，「CNN之父」、Facebook 人工智能实验室总监 Yann LeCun 也参与了进来：

François：我还记得自己在 2014 年的时候问过 Dan Ciresan 怎么看 Torch7，那时候我还是 Torch 用户。他给我的回答简单总结一下是说，他觉得里面的 bug 一串接着一串没法用，他还是更喜欢用自己写的 CUDA 代码。那时候我不太赞同他的立场（现在也不）。
Ian：这篇论文里的卷积网络在CUDA出现之前就用了GPU https://hal.inria.fr/inria-00112631/document
Yann：回复 Ian ：没错。那个时候（2005 年）微软研究院的 Patrice Simard 还需要向 NIVIDA 要一些专用文件。把多重卷积操作转换成矩阵乘积比较快的这件事是他的团队首先发现的。
François：回复 Ian ：你觉得哪个是更大的突破？是卷积网络在 GPU 上运行得更快了，还是卷积网络可以赢下参与者众多的图像分类比赛？
Ian：回复 François ：2011 年的时候我也用 GPU 上跑的卷积网络赢过机器学习比赛（NIPS 的迁移学习比赛），不过我没觉得这是深度学习大爆发的开始
Yann：回复 François ：后者更重要。其实在用上 GPU 、拿下交通信号灯比赛冠军之前，卷积网络就在一系列 benchmark 中取得了最佳成绩。只是那时候整个社区还不相信卷积网络，或者是觉得这之间没什么联系。ImageNet 比赛改变了这一切。
François：回复 Ian ：我觉得没人会低估 AlexNet 一举掀起深度学习热潮的重要意义（明摆着的）。不过同时也很难否认这就是当时的浪潮的一部分。讨论归功给谁很复杂，我们这个社区在这件事情上并没有一直做得很好。
François：回复 Ian ：再说明白一点：讨论做出的贡献的时候，人们往往会掉进「赢者通吃」的观念里，把创新的想法看作是逐渐的积累过程，而其实宏观的趋势可能要比单个人的贡献更重要。