谷歌AlphaGo的胜利：不是计算机打败了人类，而是人类打败了人类

本文作者：高飞龙

2016-01-28 18:21

专题：人工智能和李世石的世纪之战

导语：人工智能AlphaGo实现了里程碑式的一步。

【编者按】作者北大软件与微电子研究院研究生毕业，围棋业余5段，现参与在线围棋教育开发项目。

谷歌AlphaGo的胜利：不是计算机打败了人类，而是人类打败了人类

“珍珠港遭到空袭！这不是演习！这不是演习！这不是演习！”
——2016年1月28日凌晨

从昨晚开始，一条声称某AI在19路棋盘上分先战胜樊麾二段，并且论文已登上Nature的消息刷爆了朋友圈。一开始，就像以往的那些“大新闻”一样，大家都认为是标题党，甚至某业余7段还查验到其论文尚未被Nature审核通过。

然而随着时间的推移，越来越多的近距离详细消息传来，开始有人相信消息的真实性。围棋圈内的各种微信群、朋友圈都在不断地争论，相信的人越来越多，不信的人也坚持己见。

终于，在接近凌晨两点，又一条最新报道来了，还附带着棋谱：《面对谷歌围棋AI，人类最后的智力骄傲即将崩塌……》（虽是真消息，但稍有标题党之嫌）至此，看到棋谱的所有人几乎都相信了：人工智能AlphaGo，实现了里程碑式的一步。

| 首先，在客观上要肯定AlphaGo实现的水平进步

附带着的棋谱：以往最强的围棋AI，大致是CrazyStone、Zen和银星围棋这几个。

而AlphaGo在让以上几个程序（无银星围棋）4子的情况下，取得了80%左右的胜率。我们据此基本可以判断，人工智能将自己的水平上限一下子提高了5个子。

樊麾二段，虽然以欧洲冠军闻名于世，但其实圈内谁都知道他是一名中国旅欧教学的职业棋手。

虽然远离东亚职业一线，但樊老师的水平仍然是不容置疑的，他依然有着职业的水平（虽然是较弱的职业），一般的业6仍然是比他不上的。

AlphaGo在正式比赛中对樊老师5：0（棋谱已可见），据说加上非正式比赛的总分为8：2（已确认），再加上棋谱里AlphaGo显示出的惊人的表现，我们可以认为，人工智能在围棋上的水平已经迈入了职业的大门。

（最新：据多位顶尖棋手对棋谱的鉴定，认为AlphaGo的水平应该在业余强6段到弱职业之间，离人类顶尖大概还有一先到两先的差距）

说的更明白点，之前的AI在蒙特卡洛算法的帮助下虽然取得了革命性的进步，战胜了绝大多数的人类，但人类中能战胜那些AI的人数可能仍然在近百万的级别。

而自今日（其实已经是三个月前了）的AlphaGo起，能在围棋盘上战胜AI的人类人数可能已经不到千人了。

按照Facebook人工智能研究院的田渊栋老师的说法，这个消息在相关研究圈内应该早就不是新闻了。

甚至回想一下昨天扎克伯格在facebook上突然发声支持自己的研究团队，也因为是知道了google团队的成果即将在一日内公示，所以想要抢占一个在舆论的位置。

（田老师参与的facebook的研究团队，是google现在最大的竞争对手，田老师他们使用的方法应该不太一样，虽然他们暂时落后，但我同样也很期待他们的下一步进展）

总之，从事实看来，这不是演习已经是显而易见的事实。

接下来谈点个人对人工智能的粗浅理解。

| 蒙特卡洛算法之后，我看到了新的天地

近些年来，尽管在蒙特卡洛算法的帮助下，AI实现了革命性的进步，达到了能战胜大部分人类的水平（中等业余5段），但随着摩尔定律的走向终点，计算机硬件的发展速度在旧有的道路上暂时无法按以前的速度爆炸发展下去，大家都认为仅凭蒙特卡洛算法是无法帮助AI战胜人类的。

依据个人的理解，我曾将围棋的思维过程分解为四步的演进：常识→棋感→计算→判断。

大约一年前，我曾和李喆七段就此问题进行过简单讨论，当时我认为蒙特卡洛算法的成功主要在于为人工智能建立了“棋感”，而以往的人工智能只能在“常识”和“计算”具有天然优势。

在蒙特卡洛算法之前，虽然计算机凭借强大的计算力可以积累大量“常识”，但由于“棋感”的缺失，人工智能无法对计算方向进行有效的筛选，最终就不免沦于蛮力搜索。

而蛮力搜索虽然可以在一定程度上实现高水平的“计算”，甚至很多其他棋类都在这一环节上被人工智能打败，而由于围棋的过度复杂和摩尔定律结束对计算机发展前景的限制，走到这一步仍然无法让人工智能战胜人类。

谷歌AlphaGo的胜利：不是计算机打败了人类，而是人类打败了人类

（注：上图为计算机眼中的国际象棋落子思路，而下图为计算机眼中的围棋落子思路，来自谷歌deepmind官网AlphaGo | Google DeepMind）

谷歌AlphaGo的胜利：不是计算机打败了人类，而是人类打败了人类

而蒙特卡洛算法出现后，凭借大量储备的棋局，通过胜负概率来判断下一步着点以作为计算方向，极大的提高的计算的效率，所以AI的水平才实现了革命性的进步。

而这次的AlphaGo，使用了深度神经网络与蒙特卡洛树状搜索相结合的方法。

依据已经能看到的Nature上的论文（可见雷锋网文章：《Google人工智能击败欧洲围棋冠军， AlphaGo 究竟是怎么做到的？》），研究者们在AlphaGo中加入了两个深度神经网络，以value networks来评估大量的选点，而以policy networks来选择落子，并且开发了一种新式算法来结合蒙特卡洛算法和以上两个神经网络。

谷歌AlphaGo的胜利：不是计算机打败了人类，而是人类打败了人类