微软研究院新成果！对话语音识别水平超人类，错误率仅为 5.9 %

本文作者：刘子榆

2016-10-19 14:59

导语：微软本周宣布，在识别人类声音领域，经过微软工程师训练的神经网络（neural network）的准确率已经达到了人类的最高水平。

据国外媒体报道，微软的研究人员本周宣布，在识别人类声音领域，经过微软工程师训练的神经网络（neural network）的准确率已经达到了人类的最高水平。

微软介绍，其人工智能实验室让 NIST 2000 自动化系统与人类专业的速记员进行了比赛。在当地时间本周一发布的论文中，结果显示，自动化系统的错误率（Word Error Rate, 简称 WER）第一次低于人工——仅为 5.9%。

让我们来看一看，5.9 % 的错误率是什么概念？

在行业标准 Switchboard 语音识别任务测试中，由专业速记员组成的人类对照组将对话语音转录成文字，目前，该记录的最低词错率就是 5.9%。这就意味着微软的语音识别系统的识别能力已经高于世界上的绝大多数人，甚至能够达到速记员的水准。

上个月的 14 日，微软的对话语音识别技术在 Switchboard 语音识别基准测试中实现了词错率 6.3 % 的突破，创造了当时该领域内错误率最低的纪录。而令人高兴的是，从 6.3% 到 5.9%，微软人工智能与研究部门只花了一个多月的时间。这让人们有理由相信，计算机真正超越人类语音识别能力那一天已经不远了。

据了解，微软团队使用的是一个基于多年技术积累开发的本地化深度学习系统 CNTK。CNTK 工具包已于一年前在 GitHub 上进行开源。目前，包括微软人工智能的个人助理小娜和混合现实全息眼镜 HoloLens在内的语音识别都是基于 CNTK 得以实现。

此次语音识别的里程碑式突破将对消费者和商业产品产生深远影响，因为语音识别技术能够显著增强人们的日常计算体验。

微软在官方博客中表示：“这一里程碑将给用户和商业产品带来广泛影响，语音识别技术将带来明显的增强。这些产品包括像 Xbox 的娱乐设备、像微软小娜（Cortana）的生产力工具以及类似 Cortana 的实现实时语音到文本转录的语音助手。”

微软表示，该团队接下来的努力方向之一就是确保语音识别技术能在喧闹的集体聚会或是背景声音较大的高速公路上，类似这些更复杂的现实生活场景中也能够进行精准地判断。研发人员希望能够将实现这一目标的方法进行完善，甚至帮助计算机在多人说话的场合为每位发言者分配名字，还要确保计算机能不受发言者的年龄、口音和音量大小的影响而准确地识别出各种语音。

微软本周发布的这篇论文题为“Achieving Human Parity in Conversational Speech Recognition”。以下为其摘要：

自 20 世纪 90 年代，DARPA Switchboard 语料库发布之后，对话语音识别技术（Conversational Speech Recognition）就一直成为语音识别领域的重要组成部分。在本篇论文中，我们进行测试的 NIST 2000 自动化系统的对话语音识别技术已经可以与人类最高水平媲美。据 Switchboard 的数据显示，专业速记员的误差率是 5.9%， CallHome （朋友和家人进行开放式对话的环境）测试表明，速记员的误差率是为 11.3 %。我们的 NIST 2000 系统在这两个案例中建立了一个新的、迄今为止最前沿的超越人类水平的基准。这意味着有史以来机器首次在对话语音上达到了人类水平。我们成功的关键在于系统地使用了卷积和 LSTM 神经网络与全新的空间平滑方法（spatial smoothing method）以及 lattice-free MMI 声学训练。

论文PDF戳这里。