Google推出Tacotron 2：结合WaveNet，深度神经网络 TTS 媲美专业级别

本文作者：岑大师

2017-12-20 13:17

导语：10月Deepmind宣布对WaveNet升级后，Google Brain近日宣布推出 Tacotron 2，两个团队的暗中较劲仍在继续。

雷锋网按：今年3月，Google 提出了一种新的端到端的语音合成系统：Tacotron。该系统可以接收字符输入并输出相应的原始频谱图，然后将其提供给 Griffin-Lim 重建算法直接生成语音。该论文认为这一新思路相比去年 DeepMind 的 WaveNet 具有架构上的优势。10 月，Deepmind发布博客称，其新的WaveNet 模型比起一年前的原始模型效率提高 1000 倍并正式商用于Google Assistant中（参见雷锋网文章：《Deepmind语音生成模型WaveNet正式商用：效率提高1000倍》），而就在今天，Google Brain 团队发布博客，宣布推出 Tacotron 2，Google Brain 与 DeepMind 的暗中较劲仍在继续。

以下是 Google 博客的相关内容，让我们来看看此次 Tacotron 2 的更新情况：

从文本（文本到语音，TTS）生成非常自然的探测语音已经成为过去数十年的研究目标。在近几年中，TTS研究取得了很大的进展，TTS系统有许多独立的模块都有了很大的改进。结合在 Tacotron 和 WaveNet 等过去研究思路，我们增加了更多改进，最终实现了我们的新系统 Tacotron 2 。我们的方法不使用复杂的语言和声学特性作为输入，相反，我们仅使用语音示例和相应的文本记录进行训练的神经网络，来从文本生成类似人类的语音。

Google推出Tacotron 2：结合WaveNet，深度神经网络 TTS 媲美专业级别

对于这一新系统的完整描述可以在我们的论文“Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions”（通过调节 WaveNet 对 Mel 谱图预测的自然 TTS 合成）中找到。简而言之，其工作原理是这样的：我们使用针对 TTS 优化的序列到序列模型来映射序列字母到编码音频的一系列功能。这些功能是一个 80 维音频频谱图，每 12.5 毫秒计算一次帧，不仅可以捕捉单词的发音，还可以捕捉人类语音的各种微妙之处，包括音量，速度和语调。最后，这些功能使用类似 WaveNet 的架构转换为 24 kHz 波形。

Google推出Tacotron 2：结合WaveNet，深度神经网络 TTS 媲美专业级别

(图为 Tacotron 2 的详细模型架构。图像的下半部分描述了将字母序列映射到光谱图的序列到序列模型。更多技术细节请参阅相关论文。)

您可以点击这里听一些 Tacotron 2 生成的音频样本。在一个评估中，我们要求听众对生成的语音的自然度进行评分，并获得了与专业录音相媲美的评分。

虽然我们的样本听起来不错，但仍然有一些棘手的问题需要解决。例如，我们的系统在复杂的单词（例如“decorum”和“merlot”）的发音上有困难，在极端的情况下甚至会随机产生奇怪的噪音。另外，我们的系统还不能实时生成音频。而且，我们还不能控制生成的语音，比如引导它听起来高兴或悲伤。这些都是一个有趣的研究问题。

Tacotron VS WaveNet

WaveNet 是一种用于生成原始音频波形的深层神经网络模型，由 Deepmind 于2016年提出。在 TTS 语音合成系统中，主流的做法是拼接 TTS （由单个配音演员的高质量录音大数据库，通常有数个小时的数据。这些录音被分割成小块，然后可以将其进行组合以形成完整的话语），而WaveNet采取完全不同的方法。在原始论文中，我们描述了一个深层的生成模型，可以以每秒处理16000个样本、每次处理一个样本党的方式构建单个波形，实现各个声音之间的无缝转换。

Google推出Tacotron 2：结合WaveNet，深度神经网络 TTS 媲美专业级别

上图动画展示了 WaveNet 的结构。它由卷积神经网络构建，在训练阶段，网络确定了语音的底层结构，比如哪些音调相互依存，什么样的波形是真实的以及哪些波形是不自然的。训练好的网络每次合成一个样本，每个生成的样本都考虑前一个样本的属性，所产生的声音包含自然语调和如嘴唇形态等参数。它的“口音”取决于它接受训练时的声音口音，而且可以从混合数据集中创建任何独特声音。与TTS系统一样，WaveNet使用文本输入来告诉它应该产生哪些字以响应查询。另外，为了使用 WaveNet 将文本转化为语音，需要识别文本中是什么。

Tacotron由 Google Brain 团队的 Yuxuan Wang （王雨轩）等人提出。在第一代 Tacotron 的相关论文中指出，WaveNet 对 TTS 效果良好，但由于样本集的自回归属性（sample-level autoregressive nature），其生成语音的处理速度较慢；同时，由于 WaveNet 还需要对现有 TTS 前端语言特征进行调节，因此也不是端到端的。

Google推出Tacotron 2：结合WaveNet，深度神经网络 TTS 媲美专业级别

（上图为Tacotron最初论文中的模型架构）

在今年3月提出的模型中，Tacotron 模型取得了 3.82 的平均意见得分（满分5）。而在最近的评估中，Tacotron 2 模型平均意见得分为 4.53，专业录音平均意见得分为 4.58。

雷锋网发现，WaveNet 大幅提高了效率后，此前的“处理速度慢”的问题已经得到解决，但仍然不是端到端。而在新的 Tacotron 模型架构中也看到，主要改进在于输出端增加了 WaveNet MoL，这样可以将 WaveNet 和 Tacotron 的优点各自结合起来，二者的“强强联合”有望促进类似语音识别一样的进步，实现语音合成的新台阶。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

10人收藏

岑大师

发私信

当月热门文章