ICLR 17最具争议的最佳论文，实至名归还是盛名过誉？

本文作者：奕欣

2017-02-27 10:47

专题：ICLR 2017

导语：ICLR最佳论文出炉，但其中一篇论文的评审观点呈现两极分化，以LeCun学生为代表的研究者认为此文被高估，而评审的最终结果却认为它具有重要的学术意义。

ICLR 2017 的论文评审结果于今天新鲜出炉，雷锋网 AI 科技评论了解到，经过近三个月的评选，本次 ICLR 的 507 篇论文中共诞生 15 篇口头展示论文，181 篇海报展示论文，而三篇最佳论文也于今天正式公布。

其中，三篇优秀论文中争议最大的莫过于这篇名为《Understanding Deep Learning Requires Rethinking Generalization》（《理解深度学习，需要重新思考泛化问题》）的论文。作者为 Chiyuan Zhang（MIT博士生，师从Tomaso Poggio）、Samy Bengio（谷歌大脑团队，深度学习三巨头 Yoshua Bengio的亲兄弟）、Modiz Hardt（谷歌大脑团队）、Benjamin Racht（加州伯克利大学），Oriol Vinyals（谷歌DeepMind）。从标题到阵容，不得不承认是非常豪华的。不过，观点在 OpenReview 上呈现两极分化，以纽约大学博士生张翔为代表的研究者认为此文被高估，而评审的最终结果却认为它具有重要的学术意义。

首先我们先和雷锋网 AI 科技评论回顾一下论文的内容。成功的神经网络在训练与测试性能之间存在非常小的差异，但传统观点认为这是泛化误差的结果。这篇论文就以「重新思考泛化问题」为主题，通过系统试验，展示传统方法无法解释大规模神经网络在实践中的泛化表现好的原因。而在实验中，研究者证明了用随机梯度训练、用于图像分类的 CNN 很容易拟合随机标签数据，而且本质上并不受显式正则化的影响。

最终的评审结果是这样评价的：

评论：
作者在论文中阐述了深度神经网络拟合随机标签数据的能力，并给出了非常不错的实验结果。这个调查不仅全面，也具有启发意义。作者提出了 a) 一个理论实例，说明一个具有足够规模参数的简单浅层网络能够产生完美的有限样本表达性；b) 系统广泛的实验评估得以支持研究结果。这个实验评价是一个具有彻底性的模型。
毋庸置疑，这是一项具有颠覆性的工作，将会启发未来数年的许多研究。
决定：
采纳（口头展示）

MIT 博士生周博磊也认为这篇论文加深了研究者们「对神经网络的理解，也给人们开了个新的视角来看问题」。在知乎的相关回答里，他对论文做出了肯定，经本人授权后节选引用如下：

「……深度学习越来越演变成了门实验科学，本身跟炼丹差不多（笑），有人云亦云，也有意外和反直觉，里面很多东西很难用理论解释清楚。比如说之前那篇蛮有名的 CVPR'15 oral 论文 Deep Neural Networks are Easily Fooled，也是偏实验说理，得到了个反直觉的结论，对我们理解 CNN 的运作原理有很大帮助。我自己是蛮喜欢基于 empirical （经验主义）的实验结果说理的工作。ICLR'17 还有篇类似的论文 Adversial Examples in the Physical World，可惜没被接收，但是论文本身也激起了挺多有意思的讨论。
这篇文章也是类似的路子，蛮值得一读，而且读起来轻松愉快。论文利用损坏的标签和打乱的像素等对比实验，测试了几种不同的正则化技术, 诸如 data augmentation, weight decay, dropout, bnorm 等，然而发现对深度模型的过拟合问题效果都不好。随后作者进一步讨论神经网络的表达能力问题，然后给了个简化的线性模型，证明正则化同样不能改进线性模型的泛化能力。……这些工作无疑加深了我们对神经网络的理解，给人们开了个新的视角来看问题。」

不过，师从 Yann LeCun 的纽约大学博士生张翔则在 OpenReview 上公开对这篇论文提出了不同意见，认为此文获得 oral 的殊荣对于理论学界并不公平。他也在评论中强调，他的观点与实验室及导师无关，纯粹是阐述他个人的意见。雷锋网 AI 科技评论第一时间联系了张翔，并与他进行了简短的交流。

从张翔的角度来看，他认为这篇论文归根结底可以总结为：在跟输入无关的随机标签下，模型的泛化能力很差。「我的反对意见是，论文实验中采用的与输入无关的随机标签训练神经网络模型，是极端显而易见且没有意义的，这个结果并没有教给研究人员任何新的知识。」

根据论文的介绍，张翔认为这样数据下训练的模型在遇到没有见过的测试输入时也会输出无意义的标签，因此它在随机标签问题下过拟合得很厉害。而论文中还使用哈德玛克复杂度（Rademacher complexity，下称哈氏复杂度）来说明传统机器学习理论会达到复杂度的最大值，得出了需要「重新思考泛化」的结论。

而张翔在 OpenReview 上表达的反对意见，则指出论文中仅靠一种哈氏复杂度的构造方式，就一定要找到这种构造方式下的对立问题，用他的玩笑话来说就是「拿着锤子，看什么都是钉子」。

「在理论方面，随机标签的数据和正常标签的数据完全就是两个不同的问题，这篇文章用前者说明问题，而学术界对后者才有最大的兴趣。同时，这篇论文中对于传统机器学习理论的使用（基于哈氏复杂度）仅仅是其中一种构造方式，如果我们将哈氏复杂度用于优化目标而不是分类错误率上，由于这两个函数的上下界存在性上的不同，我们并不能够得到论文中『复杂度可以达到最大值』的结果。此外，对于随机标签问题和正常标签问题，理论学界的研究已经有所进展，论文中说『需要重新思考泛化』是非常不合适的，对理论界的诸多前辈的研究工作非常不公平。」

这篇论文能够引起学界的思考自然意义深远，但会议评审与领域主席的观点最终会对论文的入选与否产生决定性影响。而对于为何这篇引起巨大争议的文章能够拿下最佳论文，张翔表示原因也很简单，因为评审与领域主席的评价高。因此，张翔也希望会议评审和领域主席能够更仔细慎重一些，「对于一些某个学界共同体（比如ICLR的实践学者）不太了解的内容要找到合适的评审方式和评审人。」

在此之前，雷锋网也报道过另一篇在 ICLR 17 引起争议的论文《LipNet: End-to-End Sentence-level Lipreading》，这篇由 DeepMind、牛津大学及加拿大高等研究院 (CIFAR) 联合发布的论文最终被拒绝，在公开评审环节中，作者与评审争论得不可开交，但最终还是被评审们拒绝。

「学术会议的论文评审是一个学界内部的民主过程，其结果需要大家都接受。但是不论什么论文都是可以有不同意见的。」在谈论起论文的评审模式时，张翔向雷锋网如是说，他也希望能通过表达自己的不同意见，引起大家的讨论。

周博磊也在知乎中表达了类似的观点，认为「往往有争议的文章，激发大家讨论的文章，才是有意思的文章（好与坏本身太主观）。」而雷锋网也将持续关注这篇论文的讨论进展，并为大家提供更全面丰富的观点及意见。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。