对话 Geoffrey Hinton&Demis Hassabis ：通用人工智能离我们有多远？

本文作者： MrBear

编辑：汪思颖

2019-01-13 19:21

导语：Geoffrey Hinton 和 Demis Hassabis 近年来的工作进展。

预测用户喜欢的音乐类型、检测出转移性肿瘤、生成脑癌的综合扫描、利用真实世界中拍摄的视频创造出虚拟环境、识别出被拐卖的人口、击败国际象棋大师以及专业的 Dota2 电竞团队、帮助 Alphabet 旗下的 Waymo 首次推出商业无人驾驶出租车服务、代替出租车司机掌控方向盘，上面提到的这些只是人工智能系统在 2018 年取得的诸多成就的冰山一角，这也证明了该领域的发展速度如火箭一般迅速。按照目前的变化速度，麦肯锡全球研究院的分析师预测，仅在美国，未来 12 年人工智能就将帮助人们实现 20% 到 25 % 的净经济收益（相当于全球范围内收益达到 13 亿美元）。

在目前的人工智能系统中，一些最令人印象深刻的工作都是起源于对深度神经网络（DNN）的研究，DNN 是一种基于数据表征的机器学习架构。它们是大致基于人脑建模的：DNN 包括与突触相连的人工神经元（即数学函数），它们能够通过突触结构将信号传递给其他神经元。神经元分层排列，这些信号（数据或输入的积）被送入 DNN，从一层传递到另一层，并通过调整每个神经连接的突触强度（权重）缓慢地对 DNN 进行「调优」。随着时间的推移，经过数百甚至数百万个周期的迭代训练，网络可以从数据集中提取特征，并识别样本中的趋势，最终学会做出新的预测。

就在 30 年前，David Rumelhart、Geoffrey Hinton 和 Ronald Williams 合著的巨著「Learning representation by Back-propagating Errors」（https://www.nature.com/articles/323533a0）详细阐述了一种基本的权重计算技术——反向传播。在越来越便宜、越来越鲁棒的计算机硬件的辅助下，反向传播技术使计算机视觉、自然语言处理、机器翻译、药物设计和材料检测等领域的研究取得了巨大飞跃。

通用人工智能面临的挑战

那么，DNN 是超级智能机器人出现的先兆吗？Demis Hassabis 不这么认为（他的话具有一定权威性）。Demis Hassabis 是 DeepMind 的联合创始人，DeepMind 是一家总部位于伦敦的机器学习初创公司，创立宗旨是将神经科学和计算机科学知识用于创造通用人工智能。换句话说，这种系统可以成功地完成人类所能完成的任何智能化的任务。

「还有很长的路要走，」Demis Hassabis 在 12 月初于蒙特利尔举行的 2018 年神经网络会议（ NeurIPS ）上说。「从某种意义上来说，游戏或棋类游戏所处的环境十分简单，因为状态之间的过渡模型可以被定义得非常详细，而且易于学习。真实世界的 3D 环境和真实世界本身要复杂得多……但如果你有开发通用人工智能的计划，这也很重要」。

Hassabis 是一名国际象棋奇才，毕业于剑桥大学，早年曾担任视频游戏「主题公园」和「黑与白」的首席程序员。他曾在伦敦大学学院、麻省理工学院和哈佛大学学习神经科学，并在哈佛大学合作撰写了关于自传性记忆和情节记忆系统的研究论文。2010 年，他参与创立 DeepMind，仅仅三年后，DeepMind 就发布了一个只使用 Atari 游戏中的原始像素作为输入的开创性人工智能系统。

自从谷歌斥资 4 亿英镑收购 DeepMind 以来，该公司及其医学研究部门 DeepMind Health 一直以它们的产品 AlphaGo 占据各大媒体头条。 AlphaGo 是一种人工智能系统，在中国围棋比赛中击败了世界冠军李世石。谷歌还与伦敦大学学院医院持续合作，他们用于该医院的 CT 扫描图像的分割模型展示出了「接近人类专家的性能表现」。最近，DeepMind 的研究人员发明了一种蛋白质折叠算法 AlphaFold，该算法成功识别了 43 种蛋白质中 25 种蛋白质的最精确结构，获得了第 13 届蛋白质结构预测技术竞赛（Critical Assessment of Techniques for Protein Structure Prediction ，CASP）一等奖。 2018 年 12 月，DeepMind 在 Science 杂志上发表论文——AlphaZero 系统，这一系统是 AlphaGo 的继承者，可以在 3 种不同的游戏（国际象棋、日本将棋和围棋）中取得足以击败人类著名棋手的性能。

尽管 DeepMind 取得了令人印象深刻的成就，但 Hassabis 提醒人们，他们绝不是在暗示通用人工智能即将成为现实（现在还为时过早）。他说，与今天的人工智能系统不同，人类是利用自身掌握的关于世界知识来进行预测和规划。而与围棋、国际象棋和将棋的初学者相比，AlphaGo 和 AlphaZero 在信息方面处于劣势。

Hassabis 说：「首先，这些人工智能系统需要先学会看别人玩游戏，然后它们会学习自己玩游戏」。「人类玩家可以比算法更快地学会玩 Atari 游戏之类的游戏。因为他们可以相当迅速地判断图案中的像素的意义，以确定他们是否需要逃离这个图案代表的物体或朝这个方向前进」。

要想让 AlphaZero 这样的机器模型能够打败人类，大约需要在一个安装了数千个谷歌设计的为机器学习优化过的应用程序专用芯片上训练 70 万步（每一步代表 4096 个棋盘位置）。换算成时间的话，相当于对于国际象棋需要经过 9 个小时的训练；对于将棋来说，需要经过 12 个小时的训练；而对于围棋来说，则需要经过 13 天的训练。

Deepmind 并不是唯一一个需要解决人工智能系统设计局限性的公司。

2018 年早些时候，总部位于旧金山的非营利人工智能研究公司 OpenAI （由 Elon Musk、Reid Hoffman、Peter Thiel 以及其他科技界名人支持）在一篇博客文章中揭开了 OpenAI Five 的神秘面纱。2018 年夏天，OpenAI Five 击败了一个包含四名 Dota 2 职业玩家的五人团队。该组织称，这一系统每天在带有 256 个 Nvidia Tesla P100 显卡和 128,000 个处理器核心的谷歌云平台上，训练时长相当于一个人玩 180 年游戏（80% 时间是和自己进行对抗，20% 时间是和自己过去的决策进行对抗）。在经过了所有这些训练后，它也努力将所学到的技能应用到特定游戏之外的任务中。

「我们没有能够高效地将它们的知识从一个领域迁移到另一个领域的系统，我认为需要一些概念或特征提取等。」Hassabi说，「针对游戏构建模型相对容易，因为从一个步骤过渡到另一个步骤很容易，但我们希望能够使系统具有生成模型的能力，这将使我们能够更容易地在更复杂的环境中执行规划任务」。

如今大多数的人工智能系统都不具备很好的扩展能力。AlphaZero、AlphaGo、OpenAI Five 利用了一种被称为强化学习的编程模式，在这种模式下，一个被人工智能算法控制的软件智能体（agent）可以在一个环境（environment，例如一个棋盘游戏，或者一个 MOBA 类游戏）中学着采取相应的行动（action）以获得最大化的奖励（reward）。

在接受 VentureBeat 采访时，Hinton 说：我们不妨想象一下斯金纳箱（雷锋网注：斯金纳通过实验发现，动物的学习行为是随着一个起强化作用的刺激而发生的。斯金纳把动物的学习行为推而广之到人类的学习行为上，他认为虽然人类学习行为的性质比动物复杂得多，但也要通过操作性条件反射。），这有助于我们对强化学习进行理解。斯金纳箱名字来源于哈佛大学的先驱心理学家 B.f. 斯金纳利用操作性条件反射来训练受试动物执行一些动作的实验，比如按下一个杠杆，让动物来响应刺激（如光或声音）。当受试者正确地完成一项行为时，他们会得到某种形式的奖励（通常是以食物或水的形式）。

人工智能研究中的强化学习方法的问题在于奖励信号往往是「非常微弱的」，Hinton 说。在某些环境下，智能体会陷入在随机数据中寻找模式的困境，即所谓的「噪声电视问题」（一个智能体被置于一个迷宫中，并要找到一个非常有价值的物体的实验，详情请参阅 AI 科技评论文章：「你需要新的好奇心方法克服强化学习中的「拓展症」」）

Hinton 说：「有时候，你会得到一个标量信号，告诉你目前模型运行良好，但这种信号并不常见，信息量也不多。而你却希望仅仅基于这个非常微弱的信号，就训练带有数百万个参数或数万亿个参数的系统。这时，你只能求助于大量的计算（许多效果惊人的演示样例都需要依赖大量的计算）。这是解决问题的一个方向，但我却并不认为这种方式非常具有新引力。我认为研究人员需要有更深刻的思考」。

Hinton 和 Hassabis 一样，他对自己的说法很有把握。Hinton 被一些人称为「深度学习教父」。在过去 30 年中，Hinton 一直致力于解决人工智能面临的一些最大的挑战。现在，他既要率领谷歌大脑深度学习研究团队，也有在多伦多大学担任教职。除了在 DNN 领域的开创性工作，Hinton 还在机器学习、知觉、记忆和符号处理方面撰写或合著了 200 多篇经过同行评审的出版物，而且他最近把注意力转向了胶囊神经网络，这是一种包含有助于建立更稳定的表征结构的机器学习系统。

他说，几十年体系化的研究经历使他确信，解决强化学习的可扩展性问题的方法是用层次结构来增强信号。

Hinton 解释说：「假设你拥有一个庞大的组织，你会从组织的顶层发出强化信号。例如，首席执行官被告知公司今年获得了大量利润，这就是他的强化信号。假设每季度会发出一次这样的强化信号，这并不意味着要训练一大群等级森严的人去完成一些任务，但是如果首席执行官下面有几个副总裁，并且给每个副总裁分配一个目标，以使他的收益最大化，这会带来更多的利润，他也会得到奖励」。

Hinton 说，在这种安排下，即使没有回报，也许是因为学着这样做的首席执行官给副总裁设定了错误的目标（但这个每季度一次的循环周期仍将继续），副总裁总能学到一些东西，这些东西在未来很可能会变得有用。

他补充道：「通过制定次级目标，并提供报酬来实现这些次级目标，可以通过制造更多微弱的信号来放大这些微弱的信号」。

这是一个看似复杂的思维实验。可以看出来，这些副总裁需要建立一个沟通渠道，即中层和低层管理人员交流的渠道，与其他人沟通最终目标、次级目标和相关的奖励条件。系统中的每个「雇员」都需要能够决定他们是否做了正确的事情，这样他们才能知道他们在什么情况下会得到奖励。所以他们需要一个语言系统。

Hinton 说：「这是一个让系统中的模块为其他模块创建子目标的问题。你可以想象一个牧羊人和一只牧羊犬。他们创造了一种语言（不是英语），训练有素的牧羊犬和牧羊人可以非常好地交流。但是想象一下，如果牧羊犬有自己的牧羊犬。然后它必须理解、总结出这个牧羊人手势中的信息，并编造一些方法来和子牧羊犬（牧羊犬的牧羊犬）交谈，从而传达这些信息」。

幸运的是，最近被称为 Transformers 的人工智能的突破性进展可能是人们朝着正确方向迈出的一步。

谷歌的研究人员在去年发表的一篇博文和附录的一篇论文（「Attention Is All You Need」，https://arxiv.org/abs/1706.03762）中，介绍了一种新型的神经结构（上面提到的 Transformers），它能够在语言翻译任务中取得比目前最先进的模型更好的性能，同时所需的训练计算量也更少。

基于「Transformers」中的工作，谷歌于 2018 年 11 月开源了 Transformers 中的双向编码器表征模型 BERT。BERT 通过对任意语料库生成的任务进行预训练来学习对句子之间的关系进行建模，使开发人员能够在 30 分钟内在单个 Cloud TPU （张量处理单元，谷歌的云托管加速器硬件）上训练最先进的自然语言处理模型，同样的任务在单个图形处理器（GPU）上需要训练几个小时。

Hinton 解释说：「Transformers 是一种可以选择路由的神经网络。在目前的神经网络中，你的输入活动变化快，而网络权重变化缓慢，这就是问题所在。生物学告诉你，你想要做的是在活动变化很快的情况下，可以在许多不同的时间尺度上修改突触，这样你就可以对最近发生的事情有一个记忆，并且很容易恢复它。在 Transformers 中，一组神经元得到了一些计算结果后，它并不会直接把它发送给所有与它相连的神经元。经过分析后，它会把计算结果发送给那些知道如何处理该计算结果的神经元，而不是那些不知道如何处理它的神经元」。

这不是什么新的想法。Hinton 指出，在 20 世纪 70 年代，大多数关于神经网络的研究都着眼于记忆方面，其目标是通过修改权重来存储信息，这样就可以利用加权计算重新创建信息，而不是简单地从某种形式的存储结果中直接提取信息。

Hinton 表示：「实际上，你不会像在文件柜中那样真正地存储信息，你只需要对一些参数进行修改，如果我给你一小部分信息，你就可以填出剩下的部分，就像用一些碎片制造出如恐龙一样的庞然大物。我想说的是，我们应该把这个想法用于短期记忆，而不仅仅是长期记忆，这样它将解决各种问题」。

人工智能和算法偏见

展望未来，Hinton 相信，借鉴于生物学的经验，未来的人工智能系统的发展方向将主要是无监督学习的各种变体。无监督学习是机器学习的一个分支，它从未标记、未分类和未归类的测试数据中收集知识。他说，在学习数据间的共性并且对这种共性的存在或缺失做出反应的能力上，无监督学习几乎与人类达到了相同的水平。

Hinton 说：「通常而言，人们很难获得带标签的数据。这不像你看到一个场景，有人把微电极放入你的下颞叶皮层，然后说在这个场景下应该产生一个电脉冲。我认为这是一种更具生物学意义的学习方式。大脑基本上就是这么工作的」。

Hassabis 对此表示赞同。

Hassabis 说：「我们（DeepMind）正在努力制定一种具有认知能力的神经科学研究路线图，我们认为这是拥有一个功能齐全的人类级人工智能系统所必需的。它需要能够具备迁移学习的能力、掌握一定的概念性知识，而且具备某种意义上的创造力，能够想象未来发生的情景、反设事实并规划未来，具备使用语言和符号推理的能力。这些都是人类可以毫不费力地做到的事情」。

然而，随着人工智能系统变得越来越复杂，一些技术专家和伦理学家担心人工智能会吸收和反映现有训练数据中存在的偏见。事实上，有证据表明这种情况已经发生了。

谷歌的人工智能研究科学家最近在一个免费的、开源的数据集上建立了一个预训练好的人工智能模型（https://venturebeat.com/2018/12/02/googles-inclusive-images-competition-spurs-development-of-less-biased-image-classification-ai/）。在其中一张照片中，一位穿着西式长裙和宽松婚纱的白人新娘被贴上了「连衣裙」、「女人」、「婚礼」和「新娘」等标签。然而，另一个形象，也是一个新娘，但是她有着亚裔血统，穿着民族服装，却被贴上了「服装」、「活动」、「表演艺术」等标签。更糟糕的是，这个模型完全忽略了图片中的人物。

与此同时，「华盛顿邮报」2018 年 7 月进行的两项研究显示，亚马逊和谷歌生产的智能音箱听懂非美国口音的可能性，比听土生土长的美国人的口音低 30% 。像 Switchboard 这样由 IBM 和微软等公司用来测量语音模型错误率的数据集，已经被证明偏向于识别出来自美国特定地区的用户。

计算机视觉算法在克服偏见的问题上也没有表现得更好。

2012 年发表的一项研究表明，供应商 Cognitec 公司开发的人脸识别算法在非裔美国人身上的表现比白种人差 5% 到 10%。据透露，最近由伦敦首都警察安全局部署的一个系统每次运行会产生多达 49 个错误的匹配结果。今年夏天，在亚马逊 Rekognition 服务的一次测试中，美国公民自由联盟调查局发现，当他们从一个「公开的数据源」获取 25000 张照片，并将其与国会议员的官方照片进行比较时，有 28 张照片被误认为是罪犯。

Hinton 并没有因为负面新闻而气馁。他认为，人工智能的一个明显优势在于它所提供的灵活性，而数据中的偏见可以很容易地被建模。

他说：「任何从数据中学到的东西都会学到数据中的所有偏见。好消息是，如果你能对数据中的偏见进行建模，你就能非常有效地消除这些偏差。有各种各样的方法可以做到这一点」。

他指出，这在人类身上并不总是奏效。

「如果你让人们做这些工作，你可以尝试对他们的偏见建模，但告诉他们不要有偏见并不能真正减少偏见。因此，我认为相较之下，在机器学习系统中，处理偏见要容易得多」。

Hinton 指出，一系列新出现的减轻偏见的工具有望被引入到更加公正的人工智能系统中。

2018 年 5 月，Facebook 发布了「Fairness Flow」，当算法根据一个人的种族、性别或年龄做出不公平的判断时，它会自动发出警告。Accenture 也发布了一个工具包，可以自动检测人工智能算法中的偏见，并帮助数据科学家减轻这种偏见。微软也在 2018 年 5 月推出了自己的解决方案；而在 9 月，谷歌推出了「What-If」工具，它也是谷歌用于 TensorFlow 机器学习框架的 TensorBoard 的偏见检测功能。

IBM 也不甘示弱，于 2018 年秋季发布了 AI fair 360，这是一款基于云计算的全自动化套件，可以「持续输出思考结果」，帮助人们了解人工智能系统如何做出决策，并推荐一些可能会减轻偏见影响的调整方法（比如算法调整或数据平衡）。Watson 和云平台研究小组最近的研究着眼于在减少人工智能模型中的偏见，特别是与面部识别有关的偏见。

「拥有运算速度非常快的计算机的一个好处是，你现在可以编写一些效率相对较低的软件，但这很容易理解，因为你的计算机有飞一般的速度。人们往往不喜欢这么做，但通常而言，你确实会想要拥有运行速度非常快的计算机。在牺牲代码效率的条件下，你可以在取得令人难以置信的准确率的情况下，让编写代码的工作不那么复杂。有了难以置信的准确性，你就有余地让它们稍微不那么准确，从而达到你想要的其他目的。在我看来，这是一个公平性和性能的折中」。

人工智能与就业

Hinton 对人工智能对就业市场的影响也持乐观态度。

「有的人认为通用人工智能这个词带有这样的含义：这种机器人个体突然会比你更聪明。我觉得不会是那样的，我认为，我们做的越来越多的日常事务将被人工智能系统（如谷歌助手）所取代」。

Forrester 公司的分析师最近预测，机器人过程自动化（RPA）和人工智能将在明年为 40% 以上的公司创造数字化工作者，这种软件能够自动完成传统上由人类完成的任务。到 2019 年，美国将有大约 10% 的工作岗位因自动化而消失。此外，世界经济论坛、普华永道和 Gartner 预测，到 2025 年，人工智能将让 7500 万人失业。

但 Hinton 认为通用人工智能不会让人类被解雇。相反，他表示，人工智能对世界的认识在很大程度上仍将是短视的，至少在不久的将来是这样。他相信，人工智能将继续以平凡但有意义的方式改善我们的生活。

他说，「未来的人工智能系统将会非常了解你可能想要做什么，以及如何去做，这将会非常有帮助。但它不会取代你。如果你选用了一个非常擅长自动驾驶的系统，然后在第一天就乘坐它出行，我认为这将是一场灾难」。

对于目前由人类执行的危险任务，Hinton 认为这是朝着正确方向迈出的一步。

「人们真的应该害怕坐在一辆由巨大的神经网络控制的汽车里，因为它无法告诉你它在做什么，」他说，「我们知道，这样的工作叫出租车司机」。

via venturebeat

雷锋网 AI 科技评论编译整理

雷锋网雷锋网

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

9人收藏

MrBear

知情人士

发私信

当月热门文章