五位机器听觉领域大咖，论道语音前沿 | CCF-GAIR 2020

本文作者：肖漫

2020-08-13 15:26

专题：CCF-GAIR 2020 全球人工智能与机器人峰会

导语：一场关于语音技术的盛宴。

2020 年 8 月 7 日- 9 日，2020 全球人工智能和机器人峰会（CCF-GAIR 2020）于深圳正式召开。CCF-GAIR 2020 峰会由中国计算机学会（CCF）主办，雷锋网、香港中文大学（深圳）联合承办，鹏城实验室、深圳市人工智能与机器人研究院协办。

从 2016 年的学产结合，2017 年的产业落地，2018 年的垂直细分，2019 年的人工智能 40 周年，峰会一直致力于打造国内人工智能和机器人领域规模最大、规格最高、跨界最广的学术、工业和投资平台。

8 月 8 日，由深圳市人工智能学会、CCF 语音对话与听觉专业组协办的「前沿语音技术」专场拉开帷幕。

五位机器听觉领域大咖，论道语音前沿 | CCF-GAIR 2020

专场由北京大学教授，深圳市人工智能学会副理事长邹月娴教授主持，五位语音领域的专家学者坐镇，覆盖“空间声场控制、语音分离、声纹识别、语音转换、端到端语音识别”五个专门领域，论道前沿语音技术的发展。

可以说，这是一个干货满满、学术气息浓厚的专场。

西北工业大学智能声学与临境通信研究中心教授张雯：开放空间声场主动控制技术

第一位登场演讲的嘉宾是西北工业大学智能声学与临境通信研究中心教授张雯，演讲的题目为《开放空间声场主动控制技术》。

五位机器听觉领域大咖，论道语音前沿 | CCF-GAIR 2020

张雯教授博士毕业于澳大利亚国立大学，现任西北工业大学航海学院教授、博士生导师。曾在澳大利亚联邦科学与工业研究组织、澳大利亚国立大学工程与计算机学院工作，先后在 IEEE Signal Processing Magazine、IEEE/ACM Transactions on Audio, Speech and Language Processing、Journal of the Acoustical Society of America 等国际权威期刊及会议上发表论文 60 余篇，于 2015 年获得澳大利亚研究理事会“早期职业研究员奖”（ARC DECRA）, 2017 年入选中国国家级人才计划青年项目。

目前，张雯教授的研究方向主要包括语音与声信号处理、主动噪声控制和机器人语音交互。

在演讲中，张雯教授主要从三个部分阐述了开放空间声场主动控制技术，分别为空间声场重构技术、空间多区域声场控制技术，以及空间主动噪声场控制技术。

在空间声场重构方面，主要涉及到两个技术：一是波场合成 WFS，二是 Ambisonics。张雯教授指出，近期更为受到欢迎的是 Ambisonics 面向场景的编解码技术，它以声波辐射模态为基地函数对声场建模，通过处理经波域转换后的 Amibisonic 信号实现声场重构与控制。

在空间多区域声场控制技术方面，张雯教授提出了空间多区域声场控制系统，用一个扬声器阵列同时控制多个区域的声场，典型的应用包括在各种公共环境下产生个人声区，以及在嘈杂的环境下产生静区。

除了提出技术本身的应用场景，张雯教授还提出对该技术进行可实现性评价的理论，基于声区的位置以及亮区期望重构声场的信号来得到可实现性系数，越接近 1 实现性越高，越接近 0 表示实现性越低。

在空间主动噪声场控制技术方面，张雯教授介绍到，区域内主动噪声控制是通过结合麦克风阵列、扬声器阵列及声场控制技术，实现三维空间区域内的降噪效果。

演讲的最后，张雯教授从两个方面提到了最新的工作考量——传声器新设计和结合 AI 与分布式声学的信号处理。张雯教授表示，在信号处理上要关注的是语音信号和噪声信号的宽带随机性质，特别是对中高频和快速变化信号的跟踪能力，在这些情况下声场控制的难度急剧增加，还将有大量的工作待展开。

滴滴 AI Labs 高级专家研究员宋辉：基于深度学习的语音分离技术进展

第二位登场的嘉宾是滴滴 AI Labs 高级专家研究员宋辉，其分享的主题是《基于深度学习的语音分离技术进展》。

五位机器听觉领域大咖，论道语音前沿 | CCF-GAIR 2020

宋辉博士毕业于清华大学，在语音技术行业工作 10 余年，先后在百度语音技术部、滴滴 AI Labs 语音研究实验室工作，拥有丰富的语音算法研发与产品化和商业化的经验。

在本场演讲中，宋辉博士介绍了语音分离技术的发展现状，深入阐述了基于深度学习的单通道语音分离技术的发展脉络，各种技术方案的优缺点与适用场景，以及未来面临的挑战。

宋辉博士首先展示了当下比较流行的单通道语音分离技术在两个不同的公开数据集合上的表现，其中 WSJ0-2mix 是纯净测试集，WHAM 是与之相对应的含噪测试集。

在比较理想的纯净数据集上，单通道的分离技术近两年在 SI-SDRi 指标上有比较大的进步。而对于更贴近真实环境的噪声场景，目前的学术研究还不是特别完备，与安静环境相比在 SI-SDR 指标上会有几个 dB 的落差，表现比较好的单通道方法在含噪数据集上还没有通过完备的测试和评估。

宋辉博士指出，单通道的语音分离可以抽象成“Encoder—Separator—Decoder”基本框架，Encoder 用于将一维混合语音变换到另一个二维空间中，Separator 用于在此二维空间中学习相对于每个说话人的 mask，并与混合语音进行元素级别相乘得到每一路分离后的变换域信号，而 Decoder 则是将每一路信号反变换回到时域。

目前主要有时域和频域两种主流的分离方法。频域方法的优点是可以与传统的信号处理方法（如频域波束形成）更相融，可以得到更加稀疏和结构化的声学特征表征。不过，其缺点也比较明显，例如精准的相位重建比较困难、需要较长的窗长满足频率分辨率的要求而导致的长时延等。

在演讲中，宋辉博士主要从 u-PIT、Deep CASA、Voice filter、SBF-MTSAL-Concat 四种方法阐述了频域语音分离和目标说话人抽取任务的技术路线。

近年来，基于时域的语音分离技术越来越受到关注，宋辉博士也对时域语音分离技术进行了剖析——

与频域的方法相对应的，时域方法能够把混合语音变换到一个实数域潜空间中，用一种 data-driven 的形式学习其特征表示，例如可以采用 1-D CNN 或是更深的 Encoder 完成这种变换。时域分离方法不需要处理相位重建问题，延时比较短，可以做到采样点级别的时延，非常适用于那些对实时性要求高的场景。

在具体方法上，宋辉博士主要介绍了 Conv-TasNet、DPRNN-TasNet、SpEx、SpEx+ 等几种有代表性的方法。

随后，宋辉博士介绍了单通道语音分离技术的几个研究方向，包括 Separator 的改进、 Encoder/Decoder 的改进和优化、训练机制的改进以及如果有效利用 speaker embedding 信息完成高质量的特定说话人抽取任务等。

最后，宋辉博士总结到，目前在学术界和工业界中，基于时域的分离方式更受大家欢迎。在未来展望上，宋辉博士表示，希望不断提升神经网络的泛化能力，使得各种分离网络在真实的环境中可以取得满意的结果；希望未来可以挖掘出更多语音分离的场景和应用。

昆山杜克大学电子与计算机工程副教授李明：基于深度编码的声纹识别及其关联任务

紧接着登场的是昆山杜克大学电子与计算机工程副教授李明，其演讲的题目为《基于深度编码的声纹识别及其关联任务》。

五位机器听觉领域大咖，论道语音前沿 | CCF-GAIR 2020

李明副教授博士毕业于美国南加州大学，现任昆山杜克大学电子与计算机工程副教授，武汉大学计算机学院兼职教授，博导。研究方向包括音频语音信息处理，多模态行为信号分析等方向。已发表学术论文 100 余篇，现担任 IEEE 语音及语言技术委员会委员，中国计算机学会语音对话与听觉专业组专委，中国人工智能学会人工心理与人工情感专委会专委， APSIPA 语音及语言处理技术委员会委员，IEEE 协会高级会员。

李明副教授曾担任 Interspeech2016、2018 及 2020 年说话人语种识别领域主席。带领团队于 2011 年、2012 年、2019 年三次获得了 INTERSPEECH paralinguistic challenge 第一名，ASRU19 阿拉伯语语种识别第一名，interspeech20 fearless steps 说话人识别第一名，指导学生获得 ISCSLP2014 最佳学生论文奖， IEEE CPTECE2018 最佳论文奖。2016 年被授予 IBM Faculty Award，2018 年被授予 ISCA 5 年最佳期刊论文奖。

在演讲中，李明副教授先是从特征提取，建立模型，鲁棒性处理，分类器设计等几个步骤介绍传统声纹方法，并随后引出基于端到端深度学习框架的声纹识别网络设计。

李明副教授提到，基于深度编码的声纹识别与传统的参数化建模方法从结构上有一定的类比性，比如卷积神经网络用于特征提取，编码层网络用于计算统计量并得到固定维度的特征向量，全连接网络用于后端分类等。

在李明副教授看来，基于深度编码的声纹识别是在传统技术上的升级：一方面，基于深度编码的声纹识别更准确，效果更好；另一方面，声纹深度编码还可以被用于说话人日志，多说话人合成，特定人变声，特定人语音分离等一系列关联任务中。

紧接着，李明副教授分享了声纹深度编码在说话人日志中的应用，介绍了如何通过 LSTM，Vector-To-Sequence 等方法更好的建模说话人片段序列相似度矩阵，以及利用匈牙利算法和预处理降低 PIT 损失函数的复杂度等。

李明副教授还介绍了一个具有声纹深度编码一致性约束的多说话人合成系统框架，在传统的 TTS 输出上，在输出端增加一个声纹网络，使得合成网络输出声音的声纹编码与给定的目标说话人的声纹编码保持一致，提高合成语音与目标说话人的相似性。

中国科学技术大学电子工程与信息科学系副教授凌震华：基于表征解耦的非平行语料话者转换

第四位进行演讲的嘉宾是中国科学技术大学电子工程与信息科学系副教授凌震华。

五位机器听觉领域大咖，论道语音前沿 | CCF-GAIR 2020

凌震华副教授主要研究领域包括语音信号处理和自然语言处理。主持与参与多项国家自然科学基金、国家重点研发计划、安徽省语音专项等科研项目，已发表论文 100 余篇，论文累计被引 4000 余次，获国家科技进步奖二等奖和 IEEE 信号处理学会最佳青年作者论文奖。在 Blizzard Challenge 国际语音合成技术评测、Voice Conversion Challenge 国际语音转换技术评测等活动中多次获得测试指标第一名。

凌震华副教授现为电气电子工程师学会（IEEE）高级会员、中国计算机学会语音听觉与对话专业组委员、中国语言学会语音学分会学术委员会委员、全国人机语音通讯学术会议常设机构委员会委员。2014-2018 年曾任 IEEE/ACM TASLP 期刊副编辑。

在本次前沿语音技术专场，凌震华副教授的演讲主题为《基于表征解耦的非平行语料话者转换》。

话者转换又称语音转换，指的是在不改变文本内容的前提下改变语音中的说话人身份信息。在演讲中，凌震华副教授主要从语音转换所基于的语料类型出发，介绍了平行语料下实现语音转换的技术演变过程，并由此延伸到非平行语料下的语音转换。

其中在平行语料条件下，传统语音转换基于 GMM （高斯混合模型）实现。 2013 年后深度学习技术被引入语音转换任务，基于产生式训练的深度神经网络（Generative Trained Deep Neural Network, GTDNN）等模型相继被提出。不过无论是 GMM 还是 DNN，都面临源与目标语音帧对齐过程中出现的误差和不合理问题。近年来提出的序列到序列（seq2seq）语音转换方法可以有效改善这一问题，提升转换语音的自然度与相似度。

进一步，凌震华副教授谈到了在非平行语料条件下的语音转换，并表示这种场景普遍存在于实际应用中，也更有难度。基于非平行数据构造平行数据，以及分离语音中的文本与话者表征，是实现非平行语音转换的两条主要技术途径。

随后，凌震华副教授重点介绍了所提出的基于特征解耦的序列到序列语音转换方法，该方法在序列到序列建模框架下实现语音中文本相关内容和话者相关内容的分离，取得了优于传统逐帧处理方法的非平行语音转换质量，接近使用同等规模平行数据的序列到序列语音转换效果。

最后，凌震华副教授表示：

我们在进行语音转换的过程中，序列到序列建模方法在时长调整、长时相关性建模等方面有其优势，但是将该方法从平行数据条件推广到非平行数据条件存在挑战。特征解耦是解决这一问题的有效途径，通过序列到序列框架下的模型结构与损失函数设计可以获取相对独立的文本与话者表征，进一步实现非平行数据条件下的高质量语音转换。

上海交通大学计算机系教授俞凯：端到端及半监督语音识别技术进展

最后一位压轴登场的是上海交通大学计算机系教授俞凯。

五位机器听觉领域大咖，论道语音前沿 | CCF-GAIR 2020

俞凯教授是上海交大苏州人工智能研究院执行院长，思必驰创始人、首席科学家。清华大学本硕，英国剑桥大学博士。长期从事语音技术研究和产业化工作，发表论文 170 余篇，获 ISCA Computer Speech and Language 和 Speech Communication的最优期刊论文奖，InterSpeech、IEEE SLT、ISCSLP 等国际会议优秀论文奖，以及美国国家标准局语音识别评测、国际口语对话系统研究挑战赛等研究评测冠军。

俞凯教授担任多个领域旗舰会议领域主席与程序委员会主席。他是国家青年千人、自然科学基金委优青，IEEE 高级会员，中国大陆高校首个 IEEE 语言文字处理技术委员会委员（2017-2019）。现任 IEEE 语音与语言处理汇刊编委，中国人工智能产业发展联盟学术和知识产权组组长，中国计算机学会语音对话及听觉专业组副主任。获评 2014 中国人工智能学会吴文俊科技进步奖，2016 年“《科学中国人》年度人物”，2018 中国计算机学会青竹奖。

在前沿语音专场，俞凯教授带来的演讲是《端到端及半监督语音识别技术进展》。

在俞凯教授看来，端到端语音识别降低了识别系统复杂度，减少参数量，简化了训练流水线。当下的端到端框架主要有两类——同步框架和异步框架；解决分类和对齐的问题。

在演讲中，俞凯教授主要探讨的是异步的端到端，其最大特点是输出和输入没有统一时钟，具有两个不同的网络。Encoder 对整体输入序列提取特征信心，接着 Decoder 以自回归方式输出标签序列，再通过注意力机制（Attention）处理输入输出对齐。

同时，俞凯教授还指出，端到端识别系统存在“在线解码的迟延问题、文本资源及语言空间约束”两方面挑战。

要解决在线解码的迟延问题，需要借助异步端到端模型的在线解码，主要有三种方法——固定短时窗口预测（Neural Transducer）、基于单帧触发的变长窗口方法（MoChA, Triggered Attention）、基于多帧累积触发阈值的方法（Adaptive Computing Steps）。

对于文本资源及语言空间约束的挑战，则可以采用模型融合（Fusion）、语言模型模块嵌入、半监督训练等方式进行解决。

除了端到端模型，俞凯教授还提到了数据处理。要从海量数据升级到高质量精准大数据，需要借以自监督预训练、半监督训练以及使用生存数据训练。

此外，俞凯教授还提及了在没有数据的情况下如何无中生有合成。俞凯教授表示：