16问搜狗陈伟：搜狗逼真AI合成主播背后的“热”技术

本文作者：赵晨希

2019-03-15 10:47

导语：近日，雷锋网就“搜狗分身”技术以及进化后的AI合成主持人，与搜狗语音技术交互中心的陈伟进行了面对面的交流。

导语：近日，雷锋网就“搜狗分身”技术以及升级后的AI合成主播，与搜狗语音技术交互中心的陈伟进行了面对面的交流。

2019年2月19日，搜狗和新华社新媒体中心联合推出的全球首个站立式AI合成主播，举行了升级发布仪式。新一代的AI合成主播从过去“坐着”播新闻，升级为具有肢体动作的“站立式播报”。AI合成主播的新闻播报方式，实现了重量级的突破。3月3日全球首位AI合成女主播“新小萌”正式上岗、向世界报道中国“两会”的盛况。

2018年11月，乌镇世界互联网大会上，以新华社CNC主持人邱浩为原型的AI合成主播首次亮相，一经面世就引发了公众极为热烈的讨论。这不仅是“搜狗分身”技术首次应用于新闻行业中，同时也是未来融媒体发展探索的一个重要方向。

16问搜狗陈伟：搜狗逼真AI合成主播背后的“热”技术

雷锋网了解到，截止目前，入职新华社的AI合成主播，已生产几千条新闻报道。参与包括第五届世界互联网大会、首届进博会、2019春运、春节、两会等若干重要事件的报道，显然，已经成为了国内人工智能与传媒业大胆融合并付诸规模化应用的典型案例。

“搜狗分身”技术可以实现机器逼真的模拟人类说话时的声音、嘴唇动作和表情，并将三者自然地匹配，创造出人类的AI分身。此次，除了声音、嘴唇动作、表情等，“搜狗分身”技术升级了AI合成主播肢体语言的能力，让AI合成主播从整体形象、动作细节、立体感觉方面有了更加逼真的效果。

而“搜狗分身”技术在新闻行业中的第一次落地，更为重要的意义，在于解决了新闻播报领域的效率问题。新闻播报受限于场地、时间、资源、主播个人的精力等等问题，因而“人类”主播每天的产出量十分有限。目前，新华社利用搜狗的技术，只要将每天想要播报的新闻以文本形式输入，便会在几秒钟后生成一个完整的视频，在新闻客户端APP上线，且中英文不同类型的语种视频均可支持。

一方面，新闻速度要求较高，采用“搜狗分身”技术，保证了新闻时效性。另一方面，该技术将主播从日常繁重、单一、没有技术含量的播报中，抽身出来。腾出更多的精力、时间录制访谈类、深度类型的新闻报道节目中去。

其次，“搜狗分身”技术早已筹备多年，在搜狗知音大的基础框架之下，孵化出很多不同的技术，从感知能力到认知能力均囊括。搜狗希望围绕搜狗在AI人工智能战略自然交互+知识计算，做出更多突破。早在2012年搜狗围绕感知层面的交互，就做了语音识别相关研究。

随着时间的推移以及技术的进步，识别这状态逐渐从语音识别到多模态识别。即语音识别之外，还增加了手写识别、唇语识别等等不同识别技术结合、叠加在一起识别能力。

而搜狗最早公布“分身”技术，可以追溯到2018年7月，搜狗CEO王小川在香港，正式对外宣布该项技术，现场王小川展示了一段结合唇语合成、语音合成、音视频联合建模与深度学习技术，可驱动机器生成对应的唇语图像与声音，进而输出统一的音视频素材。近日，雷锋网就“搜狗分身”技术与搜狗语音技术交互中心的陈伟进行了面对面的交流。

16问搜狗陈伟：搜狗逼真AI合成主播背后的“热”技术

陈伟介绍称，在语音理解认知层面，搜狗语音技术交互中心主要做机器翻译和自然交互的研究工作。在表达层面，目前更多集中在多模态表达的研究。基于从识别再到理解、认知，再到表达整个闭环。当然，除了音频之外还有音视频的表达方式。陈伟所在团队有两条大条线在做语音交互：第一，怎么能够让人机交互更自然；第二，语音翻译、语音同传的能力。

陈伟认为，未来的发展方向语音不会是唯一的一种表达，而是如何将其与多模态信息融合起来。在交互的框架下，引入与语音、同传等更多的信息，以及语音、图像等能力相互结合。陈伟说，“技术一直在持续迭代中，目前搜狗具备了在整个分身的技术方面快速落地的稳定能力。不仅仅停留在实验室的模型阶段，而是跟更多行业内不同领域的场景、产品深度结合。AI合成主播原形的工作性质发生了很多变化，AI分身落地之后确实改变、影响每个人未来的工作方式和状态。”

陈伟透露，基于搜狗分身技术的AI合成主播已经在新华社平台上播报了几千条新闻，并且是零失误。搜狗分身将于年内推出交互能力，后续搜狗分身会继续在教育，法律，医疗，娱乐等领域纷纷发力......

以下为雷锋网与搜狗语音技术交互中心陈伟的交流实录：

关于合作背景与技术细节

提问：现在媒体转型大潮下，传统媒体都在转型为融媒体。搜狗当初怎么想到和新华社合作，合作背后的考量是什么？

陈伟：从目前跟新华社合作来看，证明这是一次非常成功的合作。2018年11月份乌镇互联网大会发布以来到现在，我们本身的技术已经在国内、国外都引起了比较大的轰动。

有些合作，恰好在某一个合适的时间点，大家有一个共同的诉求下，把这件事做成了。我们当时在做这件事情时，第一想法是把它落地在主播，正好新华社有这方面的需求，于是就产生了后续的合作。

提问：搜狗用到云端的服务器了吗？用了哪家的服务器？

陈伟：要用云端服务器。用的自己的，搜狗都有自建机房。

提问：新华社CNC毕竟是新华社一个子部门，对云端数据高并发要求以及数据处理量并不是特别高。如果想大规模普及的话，比如在CCTV大规模应用的话，对云端数据处理量要求会非常高，搜狗在云端方面有相关部署吗？

陈伟：现在包括两部分，一部分是我们支持公有云的调动，会有一个公有云。比如有些公司需要用，他们自己没有服务器，我们可以提供。第二部分，我们可以支持私有化的部署，在他自己的机房部署分身整套服务。这也是为什么说搜狗目前在分身这件事情上是领先的。我们现在提供出去的服务在资源占用上、实时性都可以完全达到要求。我们有好的系统能力支撑了我们整套技术的快速输出。

提问：整个分身涉及到大量的语言数据NLP处理，通过怎样的方式获得？

陈伟：目前AI没有数据肯定做不到，从2012年到现在我们基本上已经做了七年多的时间了。早期做语音识别的能力，后期有语音合成的能力，再加上我们一直在做唇语识别的研究。差不多从2016年开始做唇语识别，还有一个团队在做图像研究，基于表情生成的工作，糅合在一起变成今天的分身。AI合成主播走到今天不是花了几个月突击出来的，而是数据本身的积累。搜狗从2012年到现在，一直在AI持续投入，产生的结果。

提问：现在AI合成主播在“工作”时，换气、倒气、同音词、停顿等技术处理方面的进展是怎样的？

陈伟：这属于语音合成领域，其实语音合成在我们目前面向于口语化的表达方面，已经做得非常好了。2018年，搜狗参加国际语音评测暴风雪预测，在语音评测方面取得国际第一名。从整个能力来看，一直走在行业最前沿的路径上。

AI合成主播用到的能力，已经是目前国内首家基于端到端神经声码器的先进技术，可以让发音真实度大大提升。从我们的展示样例中可以听到，讲话中的韵律、停顿、中间的语气词处理的都是不错的。这依赖于数据的积累，数据对于巨头公司之间的差距不是很明显，主要看技术上谁走得更快。

无论评测还是实际落产品，搜狗在整个合成领域方面在国内是领先的。我们希望搜狗“分身”的逼真度跟真人无异。这其中取决于，大家看到的表情、唇语、动作，还有一块是听声音。

提问：建模是不是分为图像建模以及语音建模？

陈伟：也有联合建模，我们保证的是表情、声音完全同步。在做AI合成主播时，语音的合成和图像表情的合成之间需要同步，这就涉及到了联合建模。

提问：从第一代坐式到站立式的，定制周期会缩短吗，现在升级版本有什么改善？形成一个比较逼真的形象需要多大的数据量呢？

陈伟：因为早期技术不成熟，需要用到大量的数据。现在录制一个人，可以放在一天的时间内，把音频和视频全部录完，同时录得数据也比较少。现在几个小时的视频资料就可以形成一个逼真形象。

数据越多，建模越容易。我们能接受的下限是几个小时，基本是少量的。在语音合成方面，搜狗前段时间发布了一个小程序叫搜狗知音坊。用户上传5到8分钟的语音，就可以生成他自己定制的音色，成本已经很低了。

我们要做一个商业级的真正商用的系统，在数据上肯定多多益善。目前国内常规定制一个语音助手或者定制版普通语音合成，各大公司语音合成的数据量都在二三十个小时以上。现在我们能把数据量做到稳定、可商用，降到一两个小时左右。

关于逼真度与模型的建立

提问：如何评判逼真度？评判维度以及标准是怎样的？

陈伟：早期是通过人工来评价的，逼真与否也是内部产品、算法的同事扫一眼，比较主观。现在搜狗在做一些指标，通过大量的假设录制视频切一小部分做一个测试集，与真人的相关视频做对比。压缩在一个相同的时间维度下面来看，逐帧对比，整个表情、嘴型、姿态上面的差异度有多大。这件事情也伴随着整个研发过程进行，指标、目标一直在变，但方法是逐渐清晰的，即希望与真人对比。

提问：逼真度从哪几个方面提升与完善？

陈伟：这个问题是行业里大家都会碰到的问题，简单来讲，遇到动作幅度过大的角度问题，比如看不到主播的嘴了，或者镜头位置不同只能看到主播的侧面。在这种信息不完全的情况下，形态怎么更好的生成，表情应该怎么做是一个问题。

模型生成出来怎样更好的结合一些姿态，结合一些更自然的微表情，这是后续必须要做到的事情。随着大家对我们的期望越来越高，就会关注主播的微表情。比如，开心时有些眉毛上扬或者微抖动，语音合成这方面，在情感和情绪上如何攻克。

目前我们的主播从整个形象来看，其实是以偏半身为主，后续能否在全身或者手势方面做更多的工作。当然，绕不开的事情就是永远要跟真人对比，某种情况下能否做到比真人更好也是比较难的，大家都在努力地攻克这些问题。

提问：模型本身有哪些迭代？

陈伟：我们不希望把它看成一个个体的定制工作，我们认为机器可以学到真正的表情、唇型。早期我们做唇语识别时候，每个人的唇型都有差异，几千小时的数据放在一起的时候，学到的效果还是明显的。反推过来看，目前视频和语音数据放在一起可以共享，我们希望搜狗“分身”能够逐渐抽象出特征出来。

不只是说从头到尾做模型和训练，因为大量的合成数据在此基础上能够让机器学到通用特征，找到自己的特点，迁移到模型上，搜狗“分身”也是基于迁移学习做这件事情。

提问：微表情、微动作之外，接下来的战略部署，除了语音、图像识别，在3D人体姿态模拟方面需要怎样的投入呢？

陈伟：本身分身不是纯语音的团队，分身有语音、图像加NLP完整能力。在这件事情上后面加强的确实是，图像方面要考虑2D+3D的混合技术，语音基础上有更多NLP能力，让他的认知能力加强。

提问：目前机器是否具备实现理想的人机交互的能力？

陈伟：之前我们一直做搜狗知音，当时在做语音交互，搜狗早期也有一些通用的语音助手的产品。2014、2015年以后，一批语音助手都倒下了，根本原因在于没有清晰定义它的能力边界。

2015年搜狗知音做了车载场景、可穿戴设备，逐渐把对话引向了任务导向的助手。相当于认知、理解的范围和空间变小了，可操控的余地变大。我认为语音助手可行的应用场景在于垂直领域。现阶段，人工智能一定处于初级阶段，走到通用人工智能、强人工智能还需要很多年，这个过程中不妨碍把这个技术从不可用变成可用，做到好用的状态。

关于AI分身的未来发展

提问：AI分身在搜狗整个的产品矩阵中处于怎样的位置？

陈伟：AI分身条线在搜狗公司就是做自然交互和知识计算，在整个市场做完整的能力。怎么让人机交互更自然，机器需要有一个形象的，怎样让机器具备一个新的形象。后期怎样做出逼真度跟真人没有差别的形象出来。基于这样的考虑，我们在整个交互链条上，把语音合成变成多模态的合成，主要还是在搜狗的主线上去完成。

提问：AI分身产品在国外有相似的竞对产品吗？

陈伟：目前没有。比如，国外很火的Deepfake（深度换脸），其实是一种换脸的方式。纯文本来驱动的技术，驱动文本生成视频的方式，在国际上，只有搜狗一家在做。

提问：目前科大讯飞都、微软也都在做多模态，和新华社合作，是搜狗的哪些方面特制吸引到了他们？

陈伟：我觉得包括两方面，第一，技术的领先性以及实际效果，当时我们拿这个效果，跟新华社谈时，他看到的已经是一个距离落地很近的状态了。第二，我们具备把这个技术快速复制，也就是目前分身的流水线已经建立好了。

而现在其他公司在这件事情上的效果跟搜狗有差距，明显差距在于他们还停留在实验室研究的状态。想要把它真正地推动到市场上，快速的在确定的时间内生产出针对不同行业的分身模型是比较困难的。这两年，搜狗在这件事情上占有先机。

提问：未来有没有想过在电影领域、游戏方面做一些推广或者试水呢？

陈伟：搜狗在电影后期做过充分的调研，电影后期对3D依赖是很强的。特别是，好莱坞有两种方式。一种方式，是通过美工画3D形象，做很多关键点，让人表演驱动模型产生动作。另外一个，比较前沿的技术是通过人脸扫描建模重建一个模型。

美工画出来的形象定制成本很高，但精度相应较高。3D成本降下来，但精度要低一些。后续分身的能力，一块是形象，另外一块就是怎么能够让图像的数据或者音频的数据，把分身的模型驱动出来。这是我们核心的领域。我们也在考虑是否可以跟后期的公司，以及电影建模公司合作，减轻他们表演的成本，把这个模型驱动起来，这是我们目前正在考虑的事情。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

4人收藏

赵晨希

编辑

简单是终极的复杂。WeChat：chenxi252516

发私信

当月热门文章