微软黄学东：微软在很多AI领域领先Google | AI NEXT

本文作者：周翔

2017-03-28 13:27

导语：黄学东称，1993年的时候，他们做的语音对话识别的词错率(word error rate)高达80%。

雷锋网按：本月 18 日，由美中技术与创新协会（Association of Technology and Innovation，ATI）主办的第一届“AI NEXT”大会在西雅图召开。本次会议的主要嘉宾包括：微软首席 AI 科学家邓力，微软院士黄学东，Uber 深度学习负责人 Luming Wang 等。华人之外，还有亚马逊 Alexa 首席科学家 Nikko Strom，微软小娜架构师 Savas Parastatidis 等业内知名专家。

大会主题是“探索 AI 的潜力，把 AI 技术应用于实用项目和服务”，对 CV、NLP、智能助手、深度学习框架均做了专题报告。微软首席语音科学家黄学东也发表了演讲，对微软的人工智能业务和进展做了全面的介绍和梳理。雷锋网根据演讲录音和PPT整理成文。

雷锋网注：黄学东于1993年加入微软，目前领导微软在美国、德国、埃及、以色列的团队研发研发微软企业人工智能客服对话解决方案、cris.ai 和 luis.ai 等认知服务、CNTK 开源深度学习工具等人工智能产品和技术。2017年2月，黄学东刚刚被评为“微软全球技术院士”，这代表着微软技术人员的最高荣誉。

微软的AI业务简介

其实，“人工智能（Artificial Intelligence）”一词最初是在1956年DARTMOUTH学会上提出的，但是为何一直到如今人工智能技术才步入快速发展的轨道？黄学东认为，主要是两方面的原因：海量的数据，以及计算能力的大幅提升。目前，人工智能主要集中在视觉、语音、语言和知识（图谱）四个领域，但是未来计算机将能够理解这个世界。

根据黄学东的介绍，目前微软的AI业务可以分成代理（Agent）、应用（ Application）、服务（Service）、基础设施（Infrastructure）这四大块。

代理：Cortana（中文名：微软小娜）、微软小冰、Toronto Project（客服助手）
应用：Office 365、Dynamicas 365（整合CRM和ERP的云服务解决方案）、SwiftKey（输入法）、Pix（拍照软件）
服务：聊天机器人框架（Bot Framework）、认知服务（Cognitive Services）、Cortana智能、认知工具包（Cognitive Toolkit）
基础设施：适用于机器学习的Azure 、Azure N Series（GPU + FPGA）、FGPA（现场可编程门阵列）

计算机语言技术的发展史

微软黄学东：微软在很多AI领域领先Google | AI NEXT

1954年，IBM和乔治城大学首次展示了能力非常有限的机器翻译系统。
1966年，John Pierce发布了一份关于“语言技术”非常关键的报告。
1975年——1986年，美国政府没有任何拨款支持机器翻译或者语音识别，发展陷入停滞。
1985年，“共同任务（common task）”方法的出现，研究人员开始共享数据。
2007年，基于统计学谷歌的翻译上线。
2011年，Siri登陆iPhone。
2016年，微软的语音识别系统的达到人类水平，同年谷歌发布支持8种语言的神经网络翻译系统。

虽然目前神经网络翻译系统还经常闹出各种笑话，但是黄学东认为，在未来几年内，计算机的翻译水平有可能会和目前的语音识别一样，达到人类（专家）的水平。

微软在语音识别领域的成就

黄学东在演讲中提到，微软于1991建立了Research Lab，该实验室的愿景是让计算机具备“看（see）、听（listen）、说（speak）”的能力。1993年，微软成立语音小组（Speech Group），希望能够让人与设备之间的语音交流成为主流。而如今，这一愿景正在实现。黄学东在演讲中特别提到了《经济学人》今年1月份的封面文章——“Now we're talking”，该文章认为语音技术让计算机不那么令人生畏，而且更易接近。

黄学东称，1993年的时候，他们做的语音对话识别的词错率(word error rate，简称WER)高达80%。然而2016年9月14日，由黄学东带领的微软语音团队在产业标准Switchboard语音识别基准测试中，实现词错率低至6.3%的这一技术突破，这比IBM的6.6%词错率更低，达到目语音识别领域错误率最低的水平。仅仅一个月后的10月18日，黄学东团队进一步将词错率降低至 5.9%，首次与专业速记员持平。

微软黄学东：微软在很多AI领域领先Google | AI NEXT

这个人类水平的对话语音识别系统用到了10个不同的DNN（深度神经网络）。据雷锋网了解，其具体实现过程是：首先用包括了ResNet（残差网络）、LSTM（长短期记忆网络）在内的6个不同的神经网络组合并行工作，其结果再通过4个新的神经网络组合之后再输出，最终达到专业速记员的水平。

但是黄学东表示，目前计算机的对语音的识别还只停留在转录阶段，想要真正理解语义还非常困难。

微软客服助手Toronto

微软黄学东：微软在很多AI领域领先Google | AI NEXT

黄学东表示，语音技术除了能够用作娱乐用途之外，还能够做很专业的事，比如技术支撑（technical support）。它在演讲中提到，微软除了语音助手Cortana和聊天机器人小冰之外，还有一个代号为“Toronto”的客服助手项目。

Toronto是基于深度强化学习的人工智能，能够理解对话中的上下文，让客服聊天机器人更加人性化、更加高效。

根据PPT的介绍，Toronto不仅能自动回复，给出建议，还能在解答不了时提示用户转接人工服务。此外，它还能帮助人工客服快速了解用户信息，给出回答建议，并可以转接给其他的工作人员，甚至还有录音功能。

当然，黄学东也表示，这些聊天助手和语音识别不一样，并没有一个已经建立起来的有效训练方法（established recipe）。

微软在深度学习方面的进展

微软黄学东：微软在很多AI领域领先Google | AI NEXT

黄学东此前曾表示，微软的深度学习工具包CNTK其实比谷歌的TensorFlow开源的要早，但是由于一开始并不是发布在GitHub上，所以外界知道的人相对少一些。但是黄学东表示，根据基准测试的结果，CNTK比谷歌的TensorFlow和亚马逊的MxNet的性能要更好：相同条件下，CNTK每秒能够处理的样本更多。

微软黄学东：微软在很多AI领域领先Google | AI NEXT

此外，黄学东还列举了ComputerWorld今年2月的评测结果，来证明微软在深度学习方面的实力。从图中可以看出，微软认知工具包（Cognitive Toolkit）v2.0 beta 1版本在性能、开发的难易程度、以及部署的难易程度这三个方面表现突出，而综合表现仅次于谷歌的TensorFlow r0.10。

微软认知工具包的优势

微软黄学东：微软在很多AI领域领先Google | AI NEXT

目前，微软认知服务的API主要包括语言、语音、机器学习、视觉、搜索、知识这几大类。据黄学东介绍，微软的认知工具包有以下三大优势：

速度&可扩展性：微软认知工具包训练和评估深度学习算法比其他的工具包都快，而且可以在不同的环境下有效扩展的同时保持精度。
商业级的质量：使用了复杂的算法以及大量的数据集。
兼容性：可以使用C++、Python等语言，而且能够定制内置训练算法，甚至使用自己的算法。

【招聘】雷锋网坚持在人工智能、无人驾驶、VR/AR、Fintech、未来医疗等领域第一时间提供海外科技动态与资讯。我们需要若干关注国际新闻、具有一定的科技新闻选题能力，翻译及写作能力优良的外翻编辑加入。

简历投递至 wudexin@leiphone.com，工作地北京。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

3人收藏

黄学东：大模型时代需要注重「三个臭皮匠」的联合能 ...

周翔

编辑

发私信

当月热门文章