谷歌语音识别端到端系统单词错误率降至5.6%，较传统模型提升16%

本文作者：隔壁王大喵

编辑：郭奕欣

2017-12-16 10:22

导语：本篇报道介绍了谷歌在语音识别领域所取得的最新突破性成就，以及Listen-Attend-Spell的端到端体系结构。

雷锋网 AI 科技评论按：本文是由来自谷歌语音团队的科学家 Tara N. Sainath 和来自谷歌大脑团队的科学家 Yonghui Wu 共同撰写的，文中简单介绍了最新论文《State-of-the-art Speech Recognition With Sequence-to-Sequence Models》的主要思想与取得的成果以及 Listen-Attend-Spell(LAS) 的端到端体系结构。雷锋网 AI 科技评论根据原文进行了编译。

提升语音识别的端到端模型

在谷歌各式各样的语音搜索应用中，都是基于传统的自动语音识别（Automatic speech recognition, ASR）系统实现的。传统的 ASR 系统由声学模型（Acoustic model, AM）、发音模型（Pronunciation model, PM）和语言模型（Language model, LM）组成，所有这些系统都是分开单独进行训练的并且通常还针对各自不同的数据集进行了单独的手工设计[1]。声学模型采用了声学特征，用于预测一组子字单元（Subword units），它们通常是上下文无关或者上下文相关的音素。然后通过手动设计的词库（也即 PM）将由声学模型预测产生的一系列音素映射到对应的单词。最终，由语言模型将概率赋予单词序列。但是对这三个模型分开进行单独训练会增加训练的复杂度，并且独立训练的效果不如将模型联合训练的效果好。在过去的几年里，开发端到端（End-to-end）的系统越来越受到学者们的欢迎，而这些端到端系统试图将这些独立的组件作为一个单一系统进行联合训练。虽然在文献[2, 3]中这些端到端模型已经展示出了颇为惊艳的结果，但是这种端到端的方法是否可以被提升到赶上甚至超越最先进的传统方法却还仍然是一个未知数。

今天我们非常高兴能够与大家分享《State-of-the-art Speech Recognition With Sequence-to-Sequence Models》[4]，它介绍了一种超越传统生产系统[1]性能的全新端到端模型。论文中展示了，我们的端到端系统取得了 5.6% 的单词错误率（Word error rate, WER），相比于强大的传统系统（6.7% WER）取得了 16% 的提升。此外，这个用于输出初始单词假设的端到端模型，由于没有独立的发音模型和语言模型，因此比传统模型小了 18 倍。

我们的系统建立在 Listen-Attend-Spell(LAS) 的端到端体系结构的基础上，该体系结构最先由[2]提出。LAS 架构由三个组件构成。首先是听者编码器组件（Listener encoder component），听者编码器与标准的声学模型相类似，它采用输入语音信号 x 的时频表示，并使用一组神经网络将输入映射到更高级的特征表示 h^enc。然后听者编码器的输出被输入到第二个组件——参与者（Attender），参与者组件使用 h^enc 来学习输入特征 x 与预测的子字单元 {y_n, ... y₀} 之间的对应关系，其中每个子字通常是一个字素或者字片（Wordpiece）。最终，注意力模块（Attention module）的输出将被输入第三个组件——拼字者（Speller，例如，解码器），拼字者组件类似于语言模型，它将输出一组假设词语的概率分布。

谷歌语音识别端到端系统单词错误率降至5.6%，较传统模型提升16%

LAS 端到端模型组件图

LAS 模型的所有组件都是被当做一个单一端到端神经网络模型进行联合训练，这一点与传统系统的分开训练不同，同时也让训练过程变得更加简单。此外，由于 LAS 模型完完全全采用神经网络模型，所以它不需要手动设计额外的组件（例如，有限状态转换器、词库和文本标准化模块）。最后，与传统模型不同的是，训练端到端模型不需要来自单独训练系统生成的决策树或者时间对准的引导程序，并且可以训练给定的文本副本（Text transcripts）对和相应的声学对。

在论文[4]中，我们介绍了各种新颖的改进结构，包括改进了传递给解码器的注意力向量（Attention vectors）和采用更长的子字单元（例如，字片）进行训练。此外，我们还介绍了大量的训练优化改进，包括使用最小误码率训练[5]策略。这些结构和优化上的改进正是为何我们的模型相比起传统模型能够取得 16% WER 提升的原因。

这项研究的另一项令人兴奋的潜在应用是多方言（Multi-dialect）和多语言（Multi-lingual）系统，其中优化单个神经网络的简便性使得这样的模型非常具有吸引力。在这里所有方言或者语言都可以结合起来训练一个神经网络，而不需要为每种方言或者语言去单独设置声学模型、发音模型和语言模型。我们发现这些模型在 7 个英语方言[6]和 9 个印度语[7]上取得了很好的效果，并且同时还超越了在每个方言或者语言上进行单独训练的模型。

虽然我们为最终的结果感到非常高兴，但是我们的工作却还远远没有完成。当前，这些模型还不能实时处理语音[8, 9, 10]，而做到实时处理这一点对于语音搜索等对延迟敏感的应用而言却是刚需。另外在采用真实生产数据进行评估时，这些模型的表现依然不够有效。此外我们的端到端模型是在 22000 个音频文本对话中进行学习的，而传统系统通常是在大型语料库上进行训练的。另外，我们提出的模型不能为罕见的词汇学习正确的拼写，例如那些由手工设计的发音模型来实现的专有名词。我们当前正在努力攻克这些挑战。

引用

[1] G. Pundak and T. N. Sainath, “Lower Frame Rate Neural Network Acoustic Models ," in Proc. Interspeech, 2016.

[2] W. Chan, N. Jaitly, Q. V. Le, and O. Vinyals, “Listen, attend and spell ,” CoRR, vol. abs/1508.01211, 2015

[3] R. Prabhavalkar, K. Rao, T. N. Sainath, B. Li, L. Johnson, and N. Jaitly, “A Comparison of Sequence-to-sequence Models for Speech Recognition ,” in Proc. Interspeech, 2017.

[4] C.C. Chiu, T.N. Sainath, Y. Wu, R. Prabhavalkar, P. Nguyen, Z. Chen, A. Kannan, R.J. Weiss, K. Rao, K. Gonina, N. Jaitly, B. Li, J. Chorowski and M. Bacchiani, “State-of-the-art Speech Recognition With Sequence-to-Sequence Models ,” submitted to ICASSP 2018.

[5] R. Prabhavalkar, T.N. Sainath, Y. Wu, P. Nguyen, Z. Chen, C.C. Chiu and A. Kannan, “Minimum Word Error Rate Training for Attention-based Sequence-to-Sequence Models ,” submitted to ICASSP 2018.

[6] B. Li, T.N. Sainath, K. Sim, M. Bacchiani, E. Weinstein, P. Nguyen, Z. Chen, Y. Wu and K. Rao, “Multi-Dialect Speech Recognition With a Single Sequence-to-Sequence Model” submitted to ICASSP 2018.

[7] S. Toshniwal, T.N. Sainath, R.J. Weiss, B. Li, P. Moreno, E. Weinstein and K. Rao, “End-to-End Multilingual Speech Recognition using Encoder-Decoder Models”, submitted to ICASSP 2018.

[8] T.N. Sainath, C.C. Chiu, R. Prabhavalkar, A. Kannan, Y. Wu, P. Nguyen and Z. Chen, “Improving the Performance of Online Neural Transducer Models ”, submitted to ICASSP 2018.

[9] C.C. Chiu* and C. Raffel*, “Monotonic Chunkwise Attention ,” submitted to ICLR 2018.

[10] D. Lawson*, C.C. Chiu*, G. Tucker*, C. Raffel, K. Swersky, N. Jaitly. “Learning Hard Alignments with Variational Inference”, submitted to ICASSP 2018.

[11] T.N. Sainath, R. Prabhavalkar, S. Kumar, S. Lee, A. Kannan, D. Rybach, V. Schogol, P. Nguyen, B. Li, Y. Wu, Z. Chen and C.C. Chiu, “No Need for a Lexicon? Evaluating the Value of the Pronunciation Lexica in End-to-End Models ,” submitted to ICASSP 2018.

[12] A. Kannan, Y. Wu, P. Nguyen, T.N. Sainath, Z. Chen and R. Prabhavalkar. “An Analysis of Incorporating an External Language Model into a Sequence-to-Sequence Model,” submitted to ICASSP 2018.

Via : Improving End-to-End Models For Speech Recognition , 雷锋网编译