AlphaGo Zero为何如此备受瞩目？这是8位教授和同学们的独家见解

本文作者：汪思颖

编辑：郭奕欣

2017-10-19 21:56

导语：雷锋网 AI科技评论第一时间联系到相关研究领域的教授和同学，与他们聊了聊看到AlphaGo Zero之后的一些思考和启发。

雷锋网 AI科技评论消息，北京时间10月19日凌晨，DeepMind在Nature上发表了名为Mastering the game of Go without human knowledge（不使用人类知识掌握围棋）的论文，在论文中，Deepmind展示了他们强大的新版本围棋程序“AlphaGo Zero”—— 仅经过三天训练，就能以100：0击败此前击败李世石的AlphaGo Lee，经过21天训练，就能达到击败柯洁的AlphaGo Master的水平。具体信息可参见100:0！Deepmind Nature论文揭示最强AlphaGo Zero，无需人类知识。

AlphaGo Zero的横空出世又一次引起大众争相讨论和转发，雷锋网 AI科技评论也第一时间联系到相关研究领域的教授和同学，与他们聊了聊看到AlphaGo Zero之后的一些思考和启发。

加拿大西蒙弗雷泽大学计算机学院教授、Canada Research Chair裴健第一时间对AI科技评论表达了他的观点，“最近的一系列成就把机器学习这把梯子又加长了很多，现在我们能爬很高的墙了，但这把梯子还是不能把我们带到月球。”

得到裴健教授如此评价的AlphaGo Zero究竟是什么呢？接下来，AI科技评论将会为大家带来它的相关介绍、关键技术、进行这项研究的意义以及一些更深层次的思考。

AlphaGo Zero是什么

AlphaGo Zero与原始的AlphaGo版本究竟有什么不同呢？上海交大CS系博士生李泽凡为我们带来了全面解答：

首先是网络输入的不同。在原始的AlphaGo版本中，首先用大量的人类对战棋谱进行输入训练，而AlphaGo Zero单纯地用黑子白子进行输入。
其次是网络设计的不同。AlphaGo的算法将policy网络和value网络，即策略网络和价值网络分开训练。但Alphago Zero将这两个网络联合训练，使得最后表达能力更好。并使用了残差网络模块，使得网络的深度能够得到大幅提升，表达能力更强。
另外，Alphago Zero不使用走子演算的方法对落子位置进行评价，而使用神经网络直接进行评价。
最后，在训练方法上，Alphago Zero在每一步进行自我博弈训练的时候，其对手（陪练）往往设置成跟Alphago Zero在一个水平上的。这样的渐进学习方式也是提升训练效果和效率的因素。

从与李泽凡的讨论中可以看到，相较于原始版本，AlphaGo Zero进行了诸多改进。那么，最终决定AlphaGo Zero表现和效率决定性因素具体是哪些呢？

“从论文上看，应该取决于三方面的因素。一是采用了一些改进的强化学习方法，使得学习过程收敛更稳定。二是从零开始学习，使得模型摆脱人类知识的束缚，有可能去探索更优的局部解。三是采用了最新的模型设计，如更深的残差卷积网络，使得优化、计算量和表达能力三方面都有增强。”纽约大学博士生张翔很好地解决了AI科技评论的疑问。

除了张翔，南京大学副教授俞扬博士在看到论文之后也对AI科技评论表示，

AlphaGo Zero的主要改进是在神经网络上使用了ResNet，以及在强化学习中使用了MCTS寻找学习样本标记。由于技术的改进，使得总体的MCTS可以极大简化，测试速度也因此得到了大幅提升。

另外，大部分同学认为，从0到1训练模型，抛弃人类经验，是一个相当重要的因素，也是一个值得借鉴的创新点。

“围棋经过上千年的传承，虽然不断会有新的突破，但整体上‘赢’的思维或套路可能已经趋于统一。因此，从优化的角度来看，利用人类知识进行学习的机制可能还是会让网络陷入跟人类思维一致的局部最优。但AlphaGo Zero这种从0开始的self-motivated强化学习机制，会使网络尝试各种可能性，打破基于人类知识的固化思维，从而获得更优解。”UIUC(伊利诺伊大学香槟分校) 博士后魏云超如是说道。

清华大学交叉信息研究院博士后王书浩也对AI科技评论表示，这种抛弃人类经验的方法与之前的工作相比，去除了领域知识相关的特征图像提取过程，更加接近于End-to-End的模型训练，能够达到更优的训练效果。

而在今年的ICCV上，UIUC联合培养博士沈志强发表了一篇类似观点的文章：使用预训练（人类知识或者其他大规模数据集）的模型可能会存在bias或者陷入局部极值点，往往得不到最佳的性能，而from scratch的训练（权重随机初始化）因为没有任何先验或者偏见，模型反而可以朝着正确的方向收敛，最后得到更优的性能。

实现AlphaGo Zero难吗？

可以看到，实现AlphaGo Zero算法的关键在之前也有过一些相关研究。这些关键性技术是否超乎了我们的想象范畴？

在与AI科技评论的交流中，张翔表示，这种技术对于学界来说并不新鲜。“对于围棋这样规则和目标可以精确定义的问题，自我比赛过程中通过输赢产生了足够的反馈信号，使得从零开始学习变得可能。”

王书浩则表示，当看到AlphaGo Zero，他非常惊讶。他继续说道，

不是因为这个工作复杂的可怕，而是简单的可怕。整个工作没有使用非常复杂的新算法，而仅仅用了深度强化学习和MCTS搜索，但是就是这样一个简单直接的尝试，得到了超越之前所有AlphaGo版本的“零度阿尔法狗”（AlphaGo Zero）。

虽然这些想法并没有什么非常大的创新点，但要说到具体实现，难度如何呢？

目前来说，能实现如此技术的，也非DeepMind莫属。

“虽然对于学界来说，实现方法并不会使人感到非常惊讶，但目前只有DeepMind有这样的团队，以及领先一整个工程迭代的技术，才能够做这样的研究。”张翔对AI科技评论说道。
沈志强也对AI科技评论表达了类似于张翔的观点：DeepMind团队拥有非常强的工程能力，这点毋庸置疑，他们能够把算法实现过程中的每个细节包括参数设置等都把握的很好。

AlphaGo Zero给我们带来了什么

可以看到，AlphaGo Zero在算法上做的创新并不多，但实现起来却极具技术难度。那么，DeepMind进行这项极具难度的技术研究到底会带给我们什么实际意义呢？在这一点上，大家畅所欲言。

解放人力成本：

“AlphaGo Zero代表着AI的实现不需要模仿或追寻人类智能的模式。大规模高速计算能力是机器智能的本质特征。机器也要扬长避短。封闭规则下的问题相对比较容易突破。在封闭规则下，搜索是重体力劳动。这次的成功为人类提供了新的工具。人类可以集中精力在更有创造性的智能任务上，把很多的搜索子任务交给机器完成。”裴健教授如此说道。

促进强化学习的发展：

而南京大学副教授俞扬博士对AI科技评论表示，他们在最近的一项免模型直接动作求解的研究工作中发现，求解出样本标记能够大幅提高强化学习效率，而以往方法样本利用率很低，依赖大量采样才能学好。

这次的论文中，AlphaGo Zero采用了规划的方法求解学习样本的标记，使得强化学习学得更好，这一思路也许在未来强化学习的发展上有重要作用。

有助于我们摆脱思维定势：

“AlphaGo Zero的这种学习方法以及创新突破告诉我们，应该如何考虑摆脱人类固有的思维和认知来解决一些实际问题，或者说可以考虑让计算机自己来学习解决这些问题的策略。通过算法的自我学习和探索，可能会得到人类意想不到的答案。”沈志强对AI科技评论说道。

同时，王书浩也表达了相同的观点，他表示，AlphaGo Zero教我们一定要打破思维定式，敢于从0到1。

更深层的讨论

当然，除了AlphaGo Zero给我们带来的实际意义，也要考虑到当前技术发展的局限性，以及如何带来更有应用价值的成果。

俞扬博士从应用价值的角度提出了相关思考：

DeepMind在AlphaGo Zero里没有使用人类数据和人工特征，主要是为了满足关于通用性的追求，同时也在挑战算法的能力。但是在解决应用问题时，如果能够低成本的获得人类数据，依然能够帮助强化学习系统快速取得较好的结果，这将会极具应用价值。

这次AlphaGo Zero的大热，也让加州大学伯克利分校博士生许华哲展开了对未来的思考，他对AI科技评论表示，“如何让智能算法去推理(reason)然后完成自我学习应该还有很长的路要走。那天会来，但应该还很远很远。”

总结：可以看到，AlphaGo Zero并没有用到很多创新的想法，但给我们带来了很多新的思考，对于学术研究也有其实际意义。不过，目前来讲，这种强化学习的方法想要走向实际应用，还有很长的路要走。正如裴健博士所言，虽然研究的梯子加长了，但是要想登上月球，还是远远不够。

论文地址：https://deepmind.com/documents/119/agz_unformatted_nature.pdf

雷锋网 AI科技评论。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

7人收藏

汪思颖

编辑

关注AI学术，例如论文

发私信

当月热门文章