百度端到端大规模语音识别系统 Deep Speaker，箭在弦上即将发布

本文作者：奕欣

2017-05-10 17:05

导语：从标题上看， Deep Speaker 应该是百度即将发布的新一代语音识别技术，且为一个端到端大规模识别系统。

雷锋网消息，今天百度研究院官网更新了一条新闻，但显示需要密码方可查看内容。

文章标题为《Protected: Deep Speaker: an End-to-End System for Large-Scale Speaker Recognition》。从标题上看， Deep Speaker 应该是百度即将发布的新一代语音识别技术，且为一个端到端大规模识别系统。

百度端到端大规模语音识别系统 Deep Speaker，箭在弦上即将发布

雷锋网第一时间联系了百度 AI 研究院的相关人士，对方表示本次更新为百度美国研究院发起，据他了解，“主要是声纹识别方向的进展”。

据百度美国研究院的消息透露，这一内容将在北京时间凌晨公布。

声纹识别是语音识别里一个比较窄的分支，通过对一种或多种语音信号的特征分析达到对未知声音辨别的目的，也就是说，可以通过声纹技术判断某句话是否为某个人所说。声纹识别的理论基础在于每个声音都有自己的特征，并能对不同的声源进行有效区分。

目前，声纹识别的任务主要有两种，一是声纹确认技术，即比对两份样本是否为同一人所说；另一个则是声纹识别技术，即判断某句话是样本库中的哪个人所说的。

今年年初，百度小度在“最强大脑”中也展示了采用声纹识别技术，从一群唱歌的参与者中找到拥有说某句话（样本为一段简短的通话）的那个人。百度官方在接受采访时，也指出本次节目的声纹识别难度比一般的声纹识别要难，主要采用的是“声学特征提取”与“说话人特征提取”两种方式，并用“DNN-ivector”及基于端到端深度学习的说话人信息提取算法进行训练和鉴别。

此前雷锋网曾经报道过百度在语音技术上的进展。语音识别层面上，百度早在2010年就已经进行智能语音及相关技术研发。并从2012年开始逐步采用 DNN、Sequence Discriminative Training（序列区分度训练）、 LSTM 模型、CTC 及 Deep CNN 等神经网络进行语音的相关研究。在语音识别领域，百度相继于 2014 年及2015 年年底发布了 Deep Speech 和 Deep Speech 2，并凭借深度语音识别技术于 2016 年入选 MIT 十大突破技术。基于 Deep Speech 2 ，2017年百度推出了一款基于人工智能的转录应用 SwiftScribe。而在语音合成上，百度于今年正式推出 Deep Voice，一个实时语音合成的神经网络系统。

那么，本次如此神秘的 Deep Speaker 到底有哪些重大的更新，它又可能在哪些方面有所突破？雷锋网将会及时跟进消息。

AI科技评论招业界记者啦！

在这里，你可以密切关注海外会议的大牛演讲；可以采访国内巨头实验室的技术专家；对人工智能的动态了如指掌；更能深入剖析AI前沿的技术与未来！

如果你：

＊对人工智能有一定的兴趣或了解

* 求知欲强，具备强大的学习能力

* 有AI业界报道或者媒体经验优先

简历投递：

lizongren@leiphone.com

雷峰网原创文章，未经授权禁止转载。详情见转载须知。