谷歌大脑是如何炼成的：万字无删减版全解密（三）

本文作者：何忞

2016-12-20 07:10

导语：这是一个非常少见的故事，尤其是因为它与我们惯常对硅谷的印象相悖。

雷锋网按：如果说到在机器学习领域领先的公司，想必你不会忽略谷歌。从谷歌翻译到从机器视觉，谷歌一直努力将机器学习应用于可能想象的任何地方。本文会讲三个故事，它们在 Google 翻译向 AI 的成功转型中整合在了一起：一个技术故事，一个制度故事和一个关于思想演变的故事。本文源自纽约时报，作者 Gideon Lewis-Kraus，雷锋网编译，未经许可不得转载。

如果对前情不太熟悉的读者，欢迎点击阅读《谷歌大脑是如何炼成的：万字无删减版全解密》系列：（一）和（二）。

第二部分：语言机器

5.语言的十字路口

谷歌大脑团队现在大约有 100 个成员，他们经常觉得自己不是在一个有等级区分的部门，而是在一个俱乐部、一个学术社区或是一个小酒吧，这个谷歌公司中最自由的部门经常受到其他部门羡慕的眼光。谷歌大脑被安排在公司园区西北边缘的一个两层的蛋壳结构的炭灰色建筑中，巨大的窗户可以看到远处的山景。他们的小厨房里有一个游戏足球桌，一个摇滚乐队游戏机，一个 Go Kit，但是都很少有人使用这些。（但是我有次看到一个年轻的助理研究员在向他的同事介绍如何把一个菠萝蜜像切火鸡一样切开）

六月份我在谷歌大脑的办公室时，看到一些空桌子，但是其中的大部分都有便利贴写着诸如“Jesse，6/27”的字眼，到现在几乎所有位置都满了。当我第一次访问他们的时候，停车还很方便，最近的位置提供给孕妇和特斯拉汽车，其他空闲的位置还很多。但是十月份的时候，如果我 9:30 以后才来，就不得不在马路对面找车位了。

谷歌大脑部门的增长让 Dean 有点担心公司是否可以满足这样的需求。他想避免发生所谓的“成功灾难”——即公司的理论容量超过了实践中执行任务的能力，人手不够。所以某天他进行了一些简单计算后，给经理做了一个两页 PPT 的展示：“如果未来每个人每天对自己的安卓手机说三分钟的话，那我们得需要多少机器啊！我们可能得将我们的计算空间加倍甚至加三倍。”Dean 用夸张的表情说，“这听起来很恐怖，但是我们不得不这么做。”他犹豫了一下，结果是“需要建立新的架构”。

但是，他们还有另一个选择：设计、批量生产一种新的芯片，安装进分散式数据中心，加快运算速度，这种新的芯片叫做 T.P.U.（tensor processing units）。并且一反常态地主张使用比普通芯片精确度更低的芯片。他们不再计算 12.236 乘以 54.392，而是给出近似的 12 乘以 54 的答案。在数学的角度看，神经网络就是一种结构化的成百上千上亿的矩阵乘法的连续结果，所以过程的速度比精确度更重要。Dean 说道：“通常专用硬件不是个好想法，它经常只能加速一个东西，但是因为神经网络的一般性，你可以使用专有硬件来加速很多东西。”

就在芯片设计阶段即将完成的时候，Le 和其他两个同事终于证明了神经网络可以通过设定来解决语言结构问题，他提出了一个想法，叫做“放弃词向量”（word embeddings）。这个想法耗费了他超过 10 年的时间。当你概括一个图像的时候，你可以预测出图像概述的每一个阶段，比如一条边，一个圆，等等。当你用同样的方法去概括一种语言的时候，实质上你是基于日常用法，建立出一个词与其他的词之间的多维距离地图。而机器不像我们使用语言学规则去分析数据，不是将词语分成名词、动词等，机器会将词语平移、扭曲、变形后放进那个地图中。

其实在二维中，这个地图并没有用。比如说，你想要将“猫”放在“狗”附近，但是你也想把“猫”放在“尾巴”、“高傲”和“喵喵”附近，因为你想把跟“猫”有关的不管距离远近的词语全部囊括在内。只有这些词在不同维度上与一个词相关时，我们才可以同时将他们关联在一起。当然，你无法轻易地做出一个 160,000 个维度的地图，但是你却可以很好地掌握一门拥有一千个维度的语言。换句话说，语言就是一个用包含一千个数字的表格指派每一个词语的过程。想象这种多维地图其实很困难，因为我们真的很难再一个三维空间中看到一个一千维的向量。

接着，特定的维度就可以表示人类显性的分类，比如性别、身材。如果你用 1000 个表示“国王”的数字，减去 1000 个表示“王后”的数字，得到的结果应该和“男人”减去“女人”一样。如果你可以获得英语语言的全部空间和法语语言的全部空间，理论上，你可以训练一个网络如何将一种语言等价地放入另一种语言。你只需要给机器无数的英文句子作为输入，相对应的法语句子作为输出，经过一些时间的学习，机器就会识别出词语的模式，就如同图像分类器在像素水平上分辨图像一样。最终，你就可以给机器一个英文句子，命令他输出匹配最佳的法语句子。

但是，词语和像素的主要区别在于，所有图像里的像素只出现一次，但词语却会随着时间连续出现。网络需要一个方法来“存储”这个时间序列的连续过程，即从第一个词到最后一个词的路径。2014年9月的一周，Le 和两个来自加拿大和德国的学者发表了三篇论文，最终提供了解决这一问题的必要理论工具。他们的研究说明了端口开放项目（如谷歌大脑的 Magenta）如何生产艺术和音乐。也为工具性任务，如机器翻译指明了道路。Hinton 告诉我说，他认为这些后续工作可以至少还需要5年以上的时间。

6.伏击者

Le 的论文说明了神经网络翻译似乎是合理的，但是他只使用了一个小的相关公共数据集（只是对谷歌而言比较小，它其实是世界上最大的公共数据集。但是旧翻译器在十年间收集的生产数据比这个数据集大 100 到 1000 倍）。更重要的是，Le 的模型在超过 7 个词语的长句中表现不佳。

彼时的谷歌大脑科学家 Mike Schuster 接过了接力棒。他知道，如果谷歌没有找到将理论转化为产品的方法，其他人就会抢先找到。这个项目花费了他两年时间。Schuster 说：“你想当然地以为，翻译无非是将数据输入，运行程序，输出结果，但实际上并不是这样。”

Schuster 是一个严谨专注，似乎岁月并没有在他身上留下痕迹。他的头又黑又小，肩膀很窄，常常穿着一条迷彩短裤和一双 Nike 运动鞋。他看起来就像是那种刚刚从打坐中醒来，戴上他小小的椭圆无边框眼镜，随便吃点坚果，然后顺便在上班路上完成了沙漠十项全能的人。他告诉我说，从家到公司骑自行车“只有” 18 英里的路程。Schuster 在前西德的杜伊斯堡长大，学习的专业是电子工程，后来又搬到日本京都从事早期的神经网络工作。90 年代，他在一个跟会议室一样大的神经网络机器上做实验，这个机器造价百万美元，并且需要经过数周的训练才能完成如今只需要在笔记本上训练一小时就能实现的任务。他在1997年发表过一篇论文，15 年来很少有人引用，但今年却被引用了 150 次左右。Schuster 并不是没有幽默感，但是他的对话经常带有一些粗暴感，我觉得这是他身上一种标志性的德国式和日本式克制精神的结合。

Schuster 要解决的问题非常复杂。一方面，Le 的代码是自定义编写的，与谷歌的开源机器学习平台（后来发展成 TensorFlow）不兼容。2015年秋天，Dean 给 Schuster 介绍了另外两个工程师：Yonghui Wu 和 Zhifeng Chen。他们花了两个月时间在新系统中重新复写了Le 的结果。Le 其实也在旁边，但是即是是他自己也不能弄清楚他们所做的工作。正如 Schuster 所说，“有些东西我们也没有完全理解，他们自己也不知道为什么这样做。”

今年二月，谷歌的研究组织（公司的一个非正式组织，大约有1000人）在豪华的旧金山联合广场圣弗兰西斯威斯汀酒店举行了一场“静修会”。会议的上午进行了多轮闪电会谈，快速地更新了研究前沿问题，下午则进行了跨部门的促进讨论，会议希望这种静修可以提供一个机会，让这种无法预测的、贝尔实验室式的交流帮助一个成熟的公司保持高产。

午饭的时候，Corrado 和 Dean 在找Google Translate 的主管 Macduff Hughes，当时 Hughes 正在独自一人吃饭，然后这两个谷歌大脑的成员突然就坐在了他的两边，就像 Corrado 说的，“我们伏击了他”。“其实，” Corrado 对警惕的 Hughes 说，“我们有些事情想告诉你。”他们告诉 Hughes，考虑到有超过10年的数百个工程师的程序代码和一个神经网络，2016年对 Google Translate来说似乎是一个彻底大翻修的好时机。原有的机器翻译系统已经工作了30年，它隔离每一个连续的句子片段，在一个大型统计派生词汇表中查询所有单词，然后使用后处理原则加上合适的后缀，再重新组合使句意明确。这种方法叫做“基于短语的统计机器翻译法”。因为系统是一个一个部分进行翻译，所以它并不知道哪个是最后一个，因此很多时候你会觉得翻译的句子结构混乱。谷歌大脑替代原有翻译机器后，可以直接一次翻译整个句子，把握句子内容，理解句子意思。

这个赌注可能很低：翻译产生的利润甚微，并且可能永远如此。对于大多数英语母语使用者而言，相比于一个期待的渐进式进步，服务产品性能上即使是一个巨大的更新，也很难激起人们的赞赏。但是发明一个能与人类媲美的机器翻译并不只有短期内的必要性，更多的是长远角度的转型式发展。在不久的将来，这对公司战略发展来说至关重要。谷歌估计 50% 的网络显示的是世界上 20% 的人使用的英语语言。如果谷歌想要在中国市场（该市场中搜索引擎绝的大多数市场份额属于其竞争对手百度），或在印度市场竞争，合适的机器翻译是基础设施中不可或缺的部分。百度也在2015年7月发布了一个关于神经机器翻译可能性的突破性文章。

并且在更远的未来，我们可以推理出，机器翻译可能是在通用计算机设备上使用人类语言的第一步。这也许代表着一个巨大的转折点——科技的发展中可能出现了真正的人工智能。

硅谷中的大多数人都认为机器学习的发展快要接近地平线了，所以 Hughes 看到了这个伏击点的到来，他对此保持怀疑态度。Hughes，一个的温和的强壮的中年男人，他的头发是杂乱的棕色，鬓角也有些灰白，是一个典型的线路工程师，在1970年的波音公司里，绝不会离开他的绘图台。他的牛仔裤口袋里感觉装满了笨拙而奇怪的工具，就好像他正在用卷尺和电热偶绘制电路。他跟年轻人不一样，他明白谷歌里很多人在很多部门都尝试过神经网络翻译的工作，想要把实验结果变为实际产品，但是很多年来，大多数结果都是徒劳无功。

Hughes 听了他们的想法，最后非常谨慎地说，“听起来这件事好像能在三年内完成。”

但是 Dean 的想法不同：“如果我们全神贯注，可以在今年内完成它。”人们喜欢、赞赏 Dean 的一个原因就是他可以长时间地全神贯注在一件事情上，另一个原因就是他在说“如果我们全神贯注于此”的时候真诚得一点也不尴尬。

Hughes 确信这个转变不会很快发生，但是他本人也不在乎真的“全神贯注于此”。所以他转身对他的团队说，“让我们为2016年做准备吧，我不想成为那个说 Jeff Dean 不能保证速度的人。”

一个月以后，他们终于做出了一个 Schuster 的新系统和 Hughes 的旧系统的对比试验。Schuster 想要实验英法互译，但是 Hughes 建议他试试别的。他说，“英语—法语互译的过程已经很完善了，系统的改进不会太明显。”

有一个困难 Schuster 无法克服。评价机器翻译的基准度量叫做 BLEU 分数，方法是比较机器翻译和平均水平的人工翻译的结果。当时，英法互译的最高 BLEU 分数是20。1分的进步被视为非常好，2分的的进步被视为非常杰出。神经网络在英法互译对中比原有系统提升了7分。Hughes 告诉 Schuster 的团队说，他们的系统在过去四年中的进步都没有这次的一半多。为了确定这不是测量上的一些巧合，他们也让一些读者来做对比试验。读者感知分数（0—6分）也显示出平均进步0.4分——这差不多是原有系统整个生命周期内的进步分数。

三月中旬，Hughes 给他的团队发了一封电子邮件，写道：旧系统的所有项目立即暂停。

谷歌大脑是如何炼成的：万字无删减版全解密（三）