Yann LeCun对于AI的最新见解 | 深度学习现存的各类疑问，你是否想知道答案？

本文作者：章敏

2016-07-29 17:52

导语：Yann LeCun是纽约大学教授以及Facebook人工智能研究主任，他在人工智能方面的见解非常具有影响力。

联合编译：陈圳，高斐，章敏

深度学习的局限性表现在哪些方面？

深度学习的一些“典型”形式包括各种前馈模块（卷积网络）和递归网络（有时以记忆单元，如LSTM或MemNN的形式呈现出来）的多种结合形式。

这些模型在其“推理”能力方面具有局限性，即执行复杂的推理或优化程序，以得到一个适切的答案。计算步骤受到前馈网络中的层数和递归网络对事物的记忆时间的长短两者共同约束。

为了使深度学习结构具备推理能力，我们需要对该结构进行调整，使其不仅能计算得出一个单一的输出结果（例如，对一个图像的理解，对一个句子的翻译等），而且能够产出一系列可替换的输出结果（例如，一个句子对应不同的翻译方法）。这便是基于能量的模型的设计目的所在：对将被推理的所有变量的每一个潜在的配置结果计分。因子图（非概率图形模型）是基于能量的模型的一个特例。将因子图与学习系统相结合被称为机器学习中的“结构型预测”方法。追溯至20世纪90年代初期，有许多关于将神经网络与结构型预测方法相结合的提议。事实上，我和我的同事当时在贝尔实验室建立的检测阅读系统除了运用卷积网络，还运用了一种结构型预测方法，我们称之为“图形转换网络”。关于将图形模型粘贴到ConvNets上，训练端对端的算法，近期涌现出众多研究成果。

如需对基于能量的模型和神经网络上的结构型预测作更多了解请参考该文章：详情

就深度学习当前的形式而言，其当然具有局限性，因为有关其用法的所有成功应用均需要在人工注释数据的帮助下进行监管学习。我们需要找到从“原始”非注释数据入手训练大型神经网络的方法，以便这些网络能够熟悉现实世界的运行规律。正如我在之前访问时给出的回答，我的钱都投入到对抗性训练中了。

什么时候能看见深度学习的理论背景和数学基础？

这是现在一个十分热门的研究课题。我很高兴看到有名的数学家和理论物理学家越来越关注深度学习背后的理论。

其中一个理论难题就是，当训练的深度神经网络工作看似可靠时，为什么需要进行非凸性优化。其中一个直觉表明优化非凸性函数是十分困难的，因为我们会陷入极小局部，并随着高原和鞍点的到来速度也会减缓。而高原或是鞍点都有可能成为问题，但是局部极小点却不会。我们的直觉是错误的，因为我们能在低维度中进行能量图规划。但是深层网络神经的主观目标通常会有1亿多的维度或是更多。但是在1亿多的维度上建立盒子是十分困难的。因为会有许多的限制。这是我在纽约大学试验中所开展的一些理论工作，并且Yoshua Bengio实验室也是从事这一方向的。他们从随机矩阵理论或是统计机制方面使用数学工具。

另一个有趣的理论问题是为什么多层网络会对神经网络有帮助？所有布尔函数的有限节点都能在2层之内进行实施（使用函数的合并或是分离模式）。但是大多数布尔函数需要公式的一项指数（例如，需要在两层神经网络中所隐藏的单位指数）。作为计算机程序员，如果使用多个连续步骤进行函数计算（多层次计算），许多的功能会变得非常的简单。这是一个多层的手工波浪式函数。但是却不清楚在类似神经网络结构的背景下，做出更加正式的说明。

第三个有趣的问题是为什么卷积神经网络表现的非常好。Mark Tygert等人写了一篇非常棒的文章是关于为什么在进行特定信号分析时使用类似卷积网络结构是正确的选择（我不是本文的联合编者，所以所有的荣誉应归属Mark，此外他还是FAIR的科学研究家）。

这一项研究工作是基于之前Stephane Mallat以及他所带的博士研究生Joan Bruna对“散射转变”的研究结果来进行的。散射转换是一个带有固定过滤器的类似卷积网络结构，且其数学上的成就能进行正式的研究：谷歌学者引用（Joan之前是纽约大学实验室的一个博士后接着又参加FAIR，但是在此之前他曾作为助理教授在伯克利参加过统计部门）。

我认为在深度学习方面对于理论家来说有许多有趣的问题，例如，周边分布的随机优化问题。

是否有深度学习永远无法习得的东西？

显然，以其当前的学习模式来看，深度学习具有局限性。不过，当人们找到构建具有人类水平的人工智能途径后，诸如深度学习等概念将会为解决与深层结构相关的优化难题提供部分解决方案。

与深度学习这一概念的相关的思想如下：

(1) 对于AI（人工智能）来讲，学习是不可或缺的重要组成部分：在20世纪80年代至90年代，这一观点尚未受到人们的广泛认可。但是，一直以来我都确信，越来越多的人们将慢慢接受这一观点。

(2) 深度学习主张，一个AI（人工智能）系统应当具备学习生活中事物的抽象，高层次或多层次表征的能力。不论该人工智能系统是通过何种途径学习这些表征的，这都将为发展AI（人工智能）过程中遇到的难题提供部分解决方案。

(3) 达到人类水平的AI（人工智能）是否能够依据机器学习的中心范式进行发展，旨在运用这一中心范式旨在对目标函数取最小值；这种取最小值的算法是否能够用基于梯度的方法（如运用backdrop进行计算的随机梯度下降算法）进行计算，这是深度学习过程中存在的一个问题。倘若，达到人类水平的AI（人工智能）不能够依据该中心范式发展，我们需要发现一些新的范式，依据这些新的范式建立新的表征学习算法。

此外，关于AI（人工智能）存在一个哲学及理论问题尚待解决：有哪些任务是可以学习的，有哪些任务是不论提供多少资源都无法学习的。在学习理论中，关于这些问题我们还要投入更多的努力。由此产生的一些有趣的结果遵循“没有免费的午餐定理”，即在可控制范围内，一种特殊的学习机器能够从众多可能的任务中学习一小部分的任务。目前，尚无任何学习机器能够高效率地学习所有潜在的任务。所有的机器都得有所侧重地学习某些特定的任务。我们人类的大脑不是普通的学习机器，尽管这样讲，听起来有点自我贬低，但是，这是事实。我们的大脑尽管表面上看起来具有较强的适应能力，却是极具专业性的。

任何计算设备均存在内在固有的难题。这也就解释了为什么即使我们制造出具有超人类智能的机器，在真实世界里这些机器仍然不能超越人类的智力水平。尽管这些智能机器能够在象棋和围棋中战胜我们，但是，在掷硬币的游戏，它们和我们人类一样不能准确预测是正面还是反面。

最近在深度学习方面有什么潜在的突破？

最近在深度学习方面有许多有趣的进展，但是我却不能在此进行一一描述。但也有一些想法吸引了我的注意，并且我也参与到研究项目之中。

在我看来，最重要的一个研究是对抗性训练（同时也称作GAN，生成对抗性网络）。这一想法是由Ian Goodfellow当他与Yoshua Bengio还是蒙特利亚大学的学生时提出来的（他曾在Google Brain工作过，现在在OpenAI）。

这是近10年来ML中提出的最有趣的想法。

这一想法的中心思想是同时训练两个神经网络。第一个称为辨别者—让我们将它标注为D（Y）—接受一个输入（例如，图像），接着输出一个标量指示图像Y看起来是“自然”还是不自然。在一个对抗性实例中，D（Y）能看做是某种能量函数，但Y是一个真实样本（例如，源于数据集的图像）时，它能接受一个较低的值；或是样本不是真实的（例如，是一个奇怪的图像），它会接受一个正值。第二个神经网络是生成者，标注为G(Z)，其中Z是在样本分布（例如，高斯）中随机取样的一个向量。生成者的作用是生成图像并用于D(Y)函数训练已接受正确的图像（真实图片是低值，其他的则是高值）。在训练过程中，D显示的是一个真实图像，并对其参数进行调整，让其输出值更低。接着D会显示一个从G生成的图像，对其参数进行调整使得其输出D（G（Z））变得更大（紧接着的是由函数所决定的目标梯度）。但是G(Z)会进行自我训练，并产生能愚弄D的图像让它误以为是真的。它是按照D对应的Y产生每一个实例的梯度进行的。换句话说，它试图将D的输出最小化，尽管D试图将其最大化。因此称为对抗性训练。

最原始的公式是使用相当复杂的概率框架，但是这是它的要点。

为什么这个会十分的有趣？因为它让我们训练辨别者，并让其作为一种无监督的“密度估计”，例如，对比功能，这给我们的数据一般是低值，但是对其他的一些的则是较高的输出。辨别者为合理解决问题必须生成一个良好的内部数据表示。它接着也可以用作特征处理器。但是更有趣的是，生成者能看做是真实数据参数化的复杂曲面：给它一个向量Z，并将其映射到数据流行上的一点。这里有许多人们对此感到十分惊讶的论文，例如生成房间的图像，在Z向量空间上做算术。

这里来源于FAIR关于此话题的有趣论文：

· Denton et al. “Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks” (NIPS 2015) : 原文
· Radford et al. “Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks” (ICLR 2015): 原文
· Mathieu et al. “Deep multi-scale video prediction beyond mean square error” :原文

最后一个是在视频预测上进行对抗性训练。这解决了非常重要的问题，当你在训练一个神经网络（或是其他模式）对未来进行预测，或是当有几个可能性的未来时，按照最传统的方式进行训练的网络（例如，最小二乘法）会预测所有可能特征的平均未来。在视频的条件下，它会产生一个模糊的混乱。对抗性训练能让系统产生它所想要的一切，只要是在辨别这所允许的范围内。这也就解决了在不确定下，进行预测遇到“模糊”的问题。

这看起来是一个技术含量极高的事情，但是我真的认为它打开了全世界可能性的大门。

在未来五到十年内，AI（人工智能）将可能朝哪些方向发展？

人们当前致力于在许多领域，且取得了巨大的进步：

1. 深度学习与推理和规划相结合；

2. 基于模型的深度强化学习（涉及到无监管预测型学习）；

3. 经由可辨的记忆模块巩固加强的递归神经网络（例如，记忆网络）：

a. 记忆网络(FAIR): 详情
b. 堆栈增强的RNN(FAIR): 详情
c. 神经图录机(DeepMind): 详情
d. 端对端型MemNN (FAIR/NYU):详情

4. 经过对抗性训练得到的生成型模型、预测模型

5. “微程序设计”：其核心思想----将程序（或电路）看作可通过backdrop进行训练的微模块。这一思想表明深度学习不仅可以学会识别模型（如前馈神经网），而且可以生成算法（如循环算法，递归算法，子程序算法等）。从DeepMind,FAIR及其他资源中可获得一些相关方面的文章，但是，这些仅仅是初级阶段的成果。

6. 分层规划与分层强化学习：这是学习将一个复杂的任务拆分成一些简单的子任务的问题所在，是所有智能系统要满足的要求。

7. 对外界事物的无监管学习预测模型（例如，视频预测）

如果在未来几年人工智能能够朝向这些方向取得重大发展，将会出现大量更为智能的关于对话系统，回答问题，及具有适应性的机器人控制与规划等的AI代理器。

设计出无监管式/预测型学习方法，这些学习方法允许大型神经网络在没有直接人工注释数据的帮助下，通过看视频，阅读书本便能够“学习现实世界是如何运转的”。

这将最终衍生出对现实世界有足够了解的机器，我们甚至会觉得这些冷冰冰的机器也有了人类的“常识”。要实现这一目标，可能会花费5年，10年，20年，甚至更久的时间。我们尚不能确定具体的期限。

如果人工智能成为人类的威胁，什么将会是有效的解决途径（如果有的话）？

我认为AI不会真正的威胁到人类。我并没有说这是不可能的，但我们是愚昧到了什么地步，才会让这样的事情发生。很多人声称：我们足够聪明，以防止这类事情发生，但我并不认为这是事实。如果我们足够聪明去建立超级人类智能机器的话，其风险是我们不会愚蠢到给他们无限的力量来毁灭人类。

此外，存在一个完全的错误的观点——我们获得智能方面情报的唯一途径是其它人类。根本没有理由证明：智能机器甚至将要主宰世界或威胁人类。支配的意志是非常人性化的（而且只针对某些特定的人）。

即使在人类中，智力与权力的欲望也不相关。事实上，目前的事件告诉我们，有限智力的人对权力（和一些成功的东西）的渴望反而过度了。

身为工业研究实验室的经理，我是大部分人（在某种程度上比我聪明）的老板（我把雇用比我聪明的人当成我工作的目标）。

许多人类所做的坏事，对于人性都是非常具体的。类似于，感到害怕变得暴力，嫉妒，想独占访问的资源，相比于陌生人跟喜欢我们的亲戚，等行为，都是通过进化物种的生存建立在我们身上的。智能机器将不会有这些基本的行为，除非我们明确地为他们建立了这些行为。但我们为什么要这么做呢？

此外，如果有人故意建立一个危险的，大众智能的人工智能，其他人就可以建立第二个更窄的人工智能，其唯一的目的是摧毁第一个。如果AIs获取计算资源量相同，第二个人会赢，就像老虎鲨鱼或病毒可以杀死一个智力超群的人类。

如果人工智能成为人类的威胁，什么将会是有效的解决途径（如果有的话）？

即使在人类中，智力与权力的欲望也不相关。事实上，目前的事件告诉我们，有限智力的人对权力（和一些成功的东西）的渴望反而过度了。

身为工业研究实验室的经理，我是大部分人（在某种程度上比我聪明）的老板（我把雇用比我聪明的人当成我工作的目标）。

谁是AI研究方面的佼佼者，Google，Facebook，Apple还是Microsoft？

我承认自己有偏见，但我可以说：

·Apple不是AI研究领域的选手，因为他们有非常隐秘的文化。你无法私底下做最先进的研究。如果不公布的话，它就不是研究，最多算是技术开发。

·Microsoft正在做一些很好的工作，但它很多的员工都去了Facebook和Google。他们在深度学习的演讲方面做的很不错（以及本世纪当前热潮之前的手写识别方面）但相比于他们最近在FAIR和DeepMinde方面的努力，在深度学习方面他们似乎没有了太大的野心。

·Google（包括Google Brain和其他的团队）或许是将深度学习投入产品和服务方面的领头者。因为他们比任何人开始的都早，并且是一家非常大的公司。它们在基础设施方面做了很多的背景工作（如TensorFlow，张量处理单元的硬件……）。但它的工作大部分都集中在应用程序和产品开发方面，而不是长期的人工智能研究。大部分来自Google Brain的研究都转向DeepMind，OpenAI，或者FAIR。

·DeepMind在基于学习AI方面做了很好的工作。他们的长期研究目标与我们在FAIR方面的目标非常相似，而且大部分的工作点相似：监督/生成模型、规划、RL、游戏、记忆增强网络的可微规划，等。他们面临的挑战是，在地理上和组织上与他们最大的内部客户（包括Alphabet（Google））分离。它使他们更难通过为他们的所有者创造收入的方式“支付他们的行程”。但他们似乎做得很好。

·Facebook在2.5年前开创了FAIR，并且想方设法在短时间内让自己成为AI研究领域的领导者。我惊讶于我们可以吸引多少世界级的研究员（现在FAIR在纽约，门洛帕克，巴黎和西雅图之间约有60名研究人员和工程师）。我同样被最近2.5年来我们研究的质量和影响所打动。我们雄心勃勃，我们准备好了长期竞争，我们对公司有着影响力，这使得我们很容易证明我们有存在感。最重要的是，我们是非常开放的：我们的研究人员每年发布多篇论文。没有什么比看到一个很有前途的年轻研究员加入less-than-open公司或从研究圈启动并且消失更加可以令人清醒了。

Facebook人工智能研究的目标与其它公司的研究实验室有什么不同？

下面是我们的目标，机构，和运行方式。

首先，谈一谈目标。我们基本上有一个长期目标：理解人工智能并建立智能机器。这不仅仅是技术的挑战，同时也是个科学问题。什么是人工智能？我们怎样才可以将其在机器中重生？与“什么是宇宙”和“什么是生活”一样，“什么是智能”可能是我们这个时代最重要的科学问题之一。最终，它不仅可以帮助我们建立智能机器，还有助于了解人类的大脑，以及大脑是如何进行工作的。

也就是说，在建立真正的智能机器的道路上，我们会发现新的理论，新的规则，新的方法，和新的算法（在短期和中期可以应用）。很多其它的科技在Facebook产品和服务中很快找到了关于图像理解，自然语言理解，内容过滤/排名，等的方法。

当Mark Zuckerberg在Facebook雇佣我的时候，他和CTO Mike Schroepfer（我的老板）给予了我极大的自由去建立我认为最好的FAIR。

之前我在几家工业研究实验室上过班（Bell Labs, AT&T Labs, NEC Research Institute, even at Xerox PARC as an intern in the 1980s）而且在 Microsoft Research, IBM Research, Google, DeepMind 和很多其它的地方都有朋友（有些人研究过世了）。所以我知道在一个工业研究环境中需要什么样的工作，不需要什么样的工作。我同样也知道了一个研究实验室为什么会成功，或消亡。这些经验让我知道FAIR该怎么构建，以及如何运行。

首先，只有公司有着长远的眼光，才可以负担得起有着雄心勃勃目标的先进的研究实验室。这意味着有“真正的”研究实验室的公司是比较大的，并且在他们的市场上生存环境良好（他们不需要担心长期生存）。从历史上看，就是这些公司如IBM, AT&T, Xerox, General Electric, Microsoft, and now Google and Facebook。

第二，研究必须在开放的，必须强制研究人员发布他们的工作。这是非常重要的：相比于发布的研究，秘密进行的研究的质量几乎总是相当的低（有点像公开源代码软件的质量，往往比封闭源代码软件更好。顺便说一句，我们在FAIR发布了我们的源代码。）如果他们发表并通过了同行审查的过滤，研究结果会更可靠，更坚实。此外，一个研究人员的生活和职业是与他/她的智力影响有关的。除非你鼓励他们发表自己的作品，否则你无法吸引最好的研究科学家。最后出版对于公司的声誉非常有益。许多工程师和科学家,想为那些是科学/技术领导者/创新者的公司工作。这种开放的研究理念，使我们能够轻松地与大学和公共/非营利性研究实验室合作。公司垄断好的想法。许多好的想法来自学术界（事实上，它们中的大多数都来自学术界），但一些可能需要公司如Facebook中的基础设施和工程支持，以充分发挥他们的潜力。

第三，科学发现是一个“自下而上”的过程。我们聘请研究人员的一部分，因为他们良好的嗅觉，去选择好的项目工作和良好的探索主题。在最初阶段，大量的研究是探索性的：你有想法，并尝试它。你需要有灵活的工具，让你快速地实现事情，并探讨他们如何工作。当事情开始时，你可以形成一个科学家和工程师小组，专注于让想法成功，并把它应用到实际问题。如果事情顺利的话，它就成为一个工程项目。在这个过程中的每一阶段，团队越来越大，工程师（和科学家）的比例也在增加。在FAIR，我们与一个称为AML（Applied Machine Learning）的团队非常密切地进行工作，他们比FAIR更偏向于工程方向（尽管他们在机器学习/人工智能、计算摄影、虚拟和增强现实等领域，有相当多令人难以置信的非常酷的研究项目）。FAIR是70%的研究加30%的工程，而AML则是另一方式。我有过在Bell实验室的实验经验，在一个研究实验室中，坐在同一走廊，并与一个工程组密切合作，这种模式运作得很好。以下的链接非常恰当的描述出了FAIR和AML的关系:Facebook's Race To Dominate AI

via：Session with Yann LeCun

PS : 本文由雷锋网独家编译，未经许可拒绝转载！

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

2人收藏

章敏

章编辑

扫描关注作者微信

发私信

当月热门文章