三驾马车齐聚 AAAI 2020 现场：继续坚定支持梯度下降不动摇

本文作者：杨晓凡

2020-02-20 13:45

导语：真知，幽默，和胸怀

雷锋网 AI 科技评论按：我们经常一同提起 Geoffrey Hinton、Yann LeCun、Yoshua Bengio 这被合称为「深度学习三驾马车」的三个名字，但却并不常见到他们三个人在同一个场合出现——甚至在 ICLR 之前，三个人全都不怎么参与学术会议。如今深度学习无可辩驳地在学术研究和实际应用中都成为了最炙手可热的技术，三人也获得了 2018 年图灵奖，AAAI 2020 设置了「图灵奖得主特殊活动」，邀请三人参与演讲、圆桌，可以看作对三人的迟来的致敬。

三驾马车齐聚 AAAI 2020 现场：继续坚定支持梯度下降不动摇

Geoffrey Hinton 介绍最新的、终于做对了的胶囊网络的演讲实录见 这里。

三驾马车齐聚 AAAI 2020 现场：继续坚定支持梯度下降不动摇

圆桌环节的主持人是机器人专家、MIT 教授 Leslie Kaelbling，她也是人工智能领域颇负盛名的《机器学习研究杂志》（JMLR）的创始人兼主编。雷锋网 AI 科技评论把圆桌环节内容整理如下，略有改动。

你们现在如何看待深度学习？

Kaelbling：几位在刚才的演讲中都带来了精彩的见解，观众们也已经提出了一些很有价值的问题。我对这些问题做了一些筛选和和分类，一类是技术性问题，另一类是更宽泛的关于研究和想法的问题。我们先从技术性问题开始吧。

第一个技术问题，作为计算机科学和机器学习概念的神经网络，和作为生物计算、人类大脑计算的模拟的神经网络，在你们看来有哪些联系？完全还原生物计算有多重要？

Hinton：生物大脑能给我们启发、能提供建议。具体来说，它告诉我们用很多数据来调整权重，就可以让一个系统能够执行复杂的计算，而不需要明确的编程。这个思路其实不太寻常，如果你没有见过这样的例子，你会很难相信这是可行的。

LeCun：确实有明确的启发作用，卷积网络之类的东西也是受到了神经科学中的经典研究的启发。很多我们现在使用的技巧都可以在神经科学的计算中找到对应的东西，分割正交化（divisive normalization）都已经成了一个标准的工具了，还有神经网络、整流器（rectification）。这几年也有很多不同地方的研究者都发现可以用联合存储器之类的结构增强神经网络的表现，然后我们回过头来看看大脑，其实和海马体很类似。虽然不是精确对应的，但几乎可以肯定有功能上相同的地方。有一个说滥了的故事和 AI 这里很相似，就是人类学会飞行的故事，我们从鸟的飞行获得了启发，但我们造的飞机可以不扇动翅膀、可以没有羽毛；这儿也是一样的。不过说到底，我觉得包括我们在内的很多研究者在这个领域内做研究最主要还是因为我们想了解人类的智慧。

Bengio：他们说的我都同意，我再做一点补充。我做研究的动力是，我相信只需要几条简单的原理就可以在很大程度上解释大脑中的活动，我把这个叫做「惊喜的假说」。大脑中当然是存在各种奇妙的东西的，但我相信只要掌握几条简单的原理就可以解决这些复杂的、通用的任务。在机器学习、AI领域做研究，就可以检验这些原理，可以给别的研究人员提供更好的大脑运行方式的解释。所以可以说，在发掘这些简单原理的过程中，机器学习领域和神经科学领域会共同受益，在制造出更智慧的机器的同时，也能更好地理解大脑是如何运行的、智慧是什么。

三驾马车齐聚 AAAI 2020 现场：继续坚定支持梯度下降不动摇

Kaelbling：有好几个观众都认为，你们每个人都提及了表征和推理的某些方面，而这些方面是做经典的 AI 的人很欢迎、愿意使用的，比如可合成性、学习隐含表征、稀疏性因子等等，但你们提到经典 AI 的时候又好像不是特别喜欢符号化 AI 的那一套。所以我和你们几个人到底能不能做朋友呢？（观众笑）（译注：Leslie Kaelbling 在机器人和经典 AI 方面有较多研究成果）

Hinton：我和 Leslie 可认识了很久了。上次我给 AAAI 投稿的时候，得到了这么多年以来最低的一次评价，而且用词很不客气，他说「Hinton 已经研究这个想法 7 年了，根本没有人感兴趣，该试试别的了」。（观众笑）其实我当时的那个想法就是想用向量表示词的含义。从这个打击中恢复心情花了一点时间，然后现在看起来我们好像其实做对了。如今我们处于的位置是，我们可以忘掉以前的事情了，现在看看我们能不能在由很多参数组成的系统里面做梯度下降，以及能不能推广这个思路。其实我们发现的最重要的事情就是它，它确实有效，这很奇妙。我们现在要探索能不能用这个方法做推理。

Kaelbling：我补充几句，虽然 AAAI 曾经，甚至可能不止一次地对你很不客气，这肯定是不对的。我们不应该做这种推定，然后用不好的态度对待研究者。

Hinton：完全同意，我只是解释了一下为什么这里存在一些恶意。

LeCun：我的观点和 Hinton 很像。在我的 PPT 里讲计算机视觉的那一页，我也说到要用向量表示符号、用连续函数表示逻辑。之所以这样做，是因为我们想让推理和学习兼容。目前唯一成功的学习方法是基于梯度的学习方法，所以我们需要推理和基于梯度的学习兼容。我们需要让它变得可微，虽然我还不是很确定具体要如何做，但我知道的是，这种想法对于对逻辑感兴趣的、按原来的方式做逻辑的人来说是讨人厌的，甚至是震惊的，因为这意味着需要放弃目前的研究路线中很多已有的东西。就像在 NLP 领域，几年前 Transformer 等一批模型出现之后，很多语言学信息就一下子变得不怎么有用了。

Bengio：他俩差不多已经把我想说的说完了。也像我在我的演讲里说的一样，我觉得我们应该向前看，考虑如何找到最好的方式，能在发挥深度学习的长处的同时，也能解决推理、语言理解等等在经典方法里通常会用符号来解决的问题——这些问题我相信是可以用更现代的方式解决的。我觉得注意力机制可能可以起到很关键的作用，我也经常跟别人说我的这个观点。

三驾马车齐聚 AAAI 2020 现场：继续坚定支持梯度下降不动摇

Kaelbling：你们真的觉得除了基于梯度的学习之外就没有什么别的、好的替代方法吗？（观众笑）

LeCun：人们成功设计出来的所有学习方法都是基于某种优化问题的……

Kaelbling：（打断）随机森林也是吗？

LeCun：它也算是某种优化，它是贪婪优化的。然后还有边缘化、贝叶斯等等各种方法，有的可能值得单独讨论，但是某种程度上，所有学习方法都是基于某种优化问题的。如果还有什么其他不一样的方法的话，那我很乐意知道 —— 这实际上也带来了一个问题，人类的大脑有没有优化某个目标函数呢？

除此之外，如果你想要优化某个函数，那你要用什么工具来优化它呢？它是零阶&无梯度的，还是一阶的&有梯度的，还是更高阶的，我们还能用梯度，但也还需要别的工具。对零阶问题做优化的效率要比一阶问题低太多了，所以如果能找得到梯度，那就用梯度吧。实际上在强化学习中还有这样的做法：因为目标函数是不可微的，所以就引入了一个评价者（critic），它的目标就是用可微的函数逼近目标函数，让它仿佛变得可微。所以，梯度下降就是行得通啊。

Kaelbling：虽然你回答的和我问的不一样，不过我明白你的意思了（观众笑）。

另一个问题，这个专场一开始我们就聊了卷积、胶囊，以及认为 Transformer 很有用，似乎可以说我们整个领域的人都在设计各种的机制，给模型增加各种结构偏倚等等。你们觉得这样的东西可能要找到多少个，才足够设计出人类级别的智慧？6种？60种？

Bengio：数字越小越好，但我们现在也不知道。

LeCun：对，如果只需要6种、10种结构，那当然很好了，但我们还不知道是不是真的这样。让我们觉得有希望的是，人类大脑皮层是有明显的统一秩序的，但所有的大脑神经元中只有一小部分是属于大脑皮层的，其它大多数的看起来似乎没那么均一、规律。

来自学生们的问题

Kaelbling：下面看几个关于方法论呀、别的方面的问题吧。听众里有很多学生，所以有很多和学生相关的问题。很多学生问了这样的问题：现在有很多学术研究是在大企业里面做的，这些大企业有大量的资源，那么当谷歌、Facebook这样的企业手握大量的、学生只有眼馋的份的资源的时候，大学扮演的角色是什么样的呢？

Hinton：我来回答这个吧。我仍然认为，那些真正原创的想法，都来自于很好的大学院系里、得到了好的建议的研究生们，这样他们就不会把历史上已有的东西重新做一遍，而是真正花好几年时间考虑做点新的东西出来。大公司里当然也是有可能做到的，但这样的事情大多数还是在大学里发生的。我觉得这是大学真正的优势。（观众鼓掌）

Bengio：我补充一下。AI 领域里有很多非常难的问题，是可以考虑在「玩具问题」（译注：专门设计的、非常简单的环境和问题）里放大了仔细研究的。我觉得我们放弃「研究玩具问题」放弃得太早了，尤其是机器学习这里，大家都在关注需要在 2000 个 CPU、GPU 上跑两个星期的那种非常难的测试，但其实对于很多有意思的问题，你可以做分析，以及用正常规模的资源做实验。我也得承认，没有这些资源有时候会觉得很沮丧，但使用这么多资源、能源也会带来一些环境问题。

LeCun：所以我建议我们建立一个新的会议，The International Conference On Deep Learning On Toy Problems，「玩具问题深度学习国际会议」。（全场笑，三个人相视而笑）

Hinton：这让我想起来一个我很多年以前提过的建议，我当时提议办一个叫「MNIPS」的会议，所有论文的算法都必须用 MNIST 做实验。（一本正经地。全场笑）

三驾马车齐聚 AAAI 2020 现场：继续坚定支持梯度下降不动摇

Kaelbling：真棒！我继续问和学生有关的问题。学生们很想知道他们应该读什么书、学习什么内容。其实你们三位都提到了概率建模时代之前出现的一些概念，但你们觉得学生应该读什么学什么呢？

Bengio：能确定的是，他们不要都读、都学一样的东西。

Kaelbling：这个挺重要的，这个领域不能只有一种声音。

Hinton：我以前的一位导师的建议是「读书会弄昏脑袋」（Reading rods the mind）。所以他说，不要读文献，要自己想办法解决问题；在你有主意了以后，再去读文献。（观众鼓掌）

LeCun：我记得 Feinman 也给过类似的建议。

Kaelbling：那些大的 AI 公司做研究活动的时候，他们会找你们预约吗？（观众逐渐开始笑）

三驾马车齐聚 AAAI 2020 现场：继续坚定支持梯度下降不动摇

（Hinton 盯着在 FB 的 LeCun 看，想让他回答；LeCun 反过来指着在谷歌的 Hinton，意思是不应该你来回答么；这时候为微软做顾问的 Bengio 先主动开口了）

Bengio：对，能帮助化石能源产业的研究是有预约的

LeCun：实际上谷歌和 FB 的 AI 研究机构都在逐步削减碳排放，到了今年底 FB 的就可以实现零排放，不过谷歌我就不清楚了。

Hinton：我觉得 LeCun 他们应该多做识别假新闻的研究，个人观点

Bengio：我觉得有很强 AI 能力的企业不要通过研究军事应用来赚钱就很好

Hinton：这一点我们三个人都同意。因为谷歌自己觉得不对，所以取消了一个国防部的好几十亿美元的项目，这给我留下了深刻印象，让我觉得原来谷歌其实也没有那么坏（全场笑）。

LeCun：FB 完全不接这种单子，我们从来就没这个问题。

科研工作心得

Kaelbling：下面我们聊点正常的话题。你们的想法都是从哪里来的？如何决定要研究哪个想法？

Bengio：每天早上我一睁眼，我就有想法了。

Kaelbling：那你怎么选择要研究哪个？全都研究？

Bengio：系统一（System 1）（译注：Bengio在演讲中提到 System 1和 System 2，前者是直觉系统，主要负责快速、无意识、非语言的认知；后者是逻辑分析系统，是有意识、带逻辑规划、有语言表达能力的）。讲真，就是靠直觉，然后你就不停做实验、不停地失败，有时候就会做出来一些成果。你要跟着自己的直觉走，做科研不就是这样的嘛。

LeCun：我当然也很依赖直觉，不过我觉得你要能够分析真正的、重要的问题的症结。然后你就会有想法，在做成功实验以后在你看来就更是更是自然而然的，起码对你自己是这样，世界上别的人可能还要过20年才会觉得这事一目了然；这个过程就是这样。所以我在 1980 年代就有了多层神经网络的想法，在我看来这是自然而然的；然后我想到了卷积神经网络，我觉得也是自然而然的。然后过了很长时间它们才开始变得流行。

现在我觉得用自监督学习解决预测中的不确定性是自然而然的事情，这些是我们需要解决的重要问题。用各种方法继续改进已有的实际系统的表现当然是有用的，但我自己对有长期影响的事情更有兴趣。

Kaelbling：又有一个和前面的话题相关的问题，神经网络曾经有段时间非常不受欢迎，只有很勇敢的人才继续研究…

Bengio：（打断）是「顽固」，只有顽固的人才继续研究

Kaelbling：「顽固」，这个词很好。假设我正在研究某个特别冷门的课题，我应该怎么发展，别人给我写了特别不客气的评语、没有人喜欢我的研究怎么办？

Hinton：我觉得首先要知道的是，大多数特别冷门的想法之所以特别冷门是因为它们效果并不好（全场笑）。那么这儿有一个很巧妙的区别。所以，我也不知道。

Bengio：你要找一些证据来支持你的想法，它不能完全是直觉。依靠证据做出判断，和完全依靠直觉，是有明显的区别的。但你也需要有信心才能不断前进。也许你第一次做实验的时候失败了，但是你做了一些变化以后就成功了。

Hinton：我觉得如果你真的对某个想法特别有信心，你就永远都不应该放弃它。所以其实我到今天都在思考如何让玻尔兹曼机发挥效果。（全场笑）我相信这么一个逻辑：如果你的直觉是对的，你就应该去研究它；如果你的直觉是错的，那你做什么其实都影响不大。（全场笑）

三驾马车齐聚 AAAI 2020 现场：继续坚定支持梯度下降不动摇

对机器学习领域抱有忧虑

Kaelbling：我自己有一个问题，Jeff 刚才说研究生应该花很多时间考虑很难的问题。但我自己的感觉是，当前领域内发表论文的周期特别短，内容也比较短视。我很担心这对整个领域会造成什么样的影响。我不知道你们是不是也有一样的感觉？

Bengio：我觉得很不乐观。当前这一代正在成长的计算机科学、机器学习的研究人员们，他们的视野似乎非常局限于短期的回报，做研究的目标就是为了赶上下一个会议的投稿截稿时间。我自己的学生都有的会来我办公室问我：接下来的四个星期里我能做些什么，因为到那个时候就截稿了。我觉得这对整个领域是很糟糕的事情，我们需要做一些结构性的改变，鼓励研究者可以冒更大的风险、研究覆盖更长的时间周期的问题。

LeCun：我觉得这里有一个连续谱，研究如何在测试里拿到更高的分数，最终肯定也是有好处的，这没什么问题。实际上随着这个领域发展，它也越来越偏向实际应用，因为有越来越多的人对这些实际应用感兴趣——这正是他们加入这个领域的原因。我觉得真正的问题是，在计算机视觉会议、NLP会议之类的更偏重应用的会议里，研究那些长时间周期的问题的人的绝对数量和他们的影响力到底如何。我觉得我们需要留一些空间给不那么关注刷分的会议，比如刚才随口说的那个「玩具问题深度学习国际会议」。

即便这样，大家也可能还是会保持一个很高的发文速度，因为当前的系统下为了找工作之类的需要他们有很多的论文。不过，这样可以让他们同时也能够研究那些长期的、复杂的、有野心的问题。

Bengio：如今发表论文的压力要比我念研究生的时候大多了，现在的学生需要在读博期间完成的论文数量简直太可怕了

LeCun：我们要是想申请自己的博士生恐怕都申请不上（观众笑）

Kaelbling：论文内容完整性的要求也不一样了

Bengio：对。实际上这里还有一个副作用，大家觉得论文中会议是有那么点重要的一件事，但经常发生的是，他们的论文被会议接收以后，他们又转而研究别的课题了。

Hinton：我给这个过程打过一个比方。每个人只花很短的时间研究问题，做出一点点成果然后就发一篇论文，就像是拿来一本很难的数独填空书，把整本书翻了个遍以后，把每个数独题目里最简单的几个空都填上了，给别的人搅了个乱七八糟。（全场笑）

观众提问时间

观众1：研究AI就是研究科学吗？用是或否回答

Hinton：（复述问题给其它观众）答案「是」。

Bengio：人工智能领域有很多种不同的事情可以做，有一些更偏向于工程，有一些更偏向于理解；偏向于理解的这些更像是「科学」。

LeCun：也有「工程科学」，其中的一部分是创造，你会设计一种方法；然后另一部分是科学，你会分析它为什么有效、为什么无效，等等。方法的创造领先于能解释它的理论，这其实在科学技术的历史中经常出现，一个典型的例子是蒸汽机，人们花了一百多年时间才弄明白其中的热力学原理以及热机的理论限制。现在我们就仿佛是创造出了蒸汽机了，然后问题就是不知道我们的「热力学原理」在哪里、有没有像热力学能解释蒸汽机那样的原理来解释智慧，这也正是我自己研究的那个很大的科学问题。

观众2：人类有通用的智慧，而且可以创造出数学这样的抽象的东西，我们可以写出解析方程，比如 F=ma，或者 e=mc^2，这其中的计算非常简单，就和二乘三等于六一样简单，做这样的计算可能就只需要几个晶体管，可能是几瓦、几毫瓦的能源消耗。相比之下深度学习虽然总体来说很厉害，但是需要成千上万瓦的能源消耗。所以有没有可能，通过某种神经架构，我们最终可以不需要这么高的计算能力、这么复杂、这么高容量。

Bengio：但是产生了 F=ma 的人类大脑里有数量庞大的神经元、有很高的计算能力。如果我们想要机器也有这样的能力，即便最终产生的结果可能是一个非常简单的方程，它的背后也先要有很多的计算、经验和学习。

观众3：看起来你们的想法似乎在很多时间上出奇地一致，比如需要的先验的本质、自监督学习和无监督学习的价值等等。我有点好奇，除了这些观点一致的点之外，对于这些方法应该怎么实现、哪些元素是重要的，你们有没有什么意见不同的地方？

Bengio：Leslie已经尝试过这个问题了，但是没能让我们吵起来。

Hinton：我可以讲一个分歧。Yoshua 的电子信箱地址结尾是「quebec」（julie.mongeau@mila.quebec），我觉得这之后还应该再写一个国家码，但他觉得不需要（观众笑）。（译注：Hinton 认为魁北克既然现在还是加拿大的一部分，就应该是 mila.quebec.ca）

Kaelbling：这个环节结束了，谢谢三位嘉宾！

（三位离席，全场鼓掌）

三驾马车齐聚 AAAI 2020 现场：继续坚定支持梯度下降不动摇