让米粉为之疯狂的声音克隆技术：深声科技如何用90秒录音克隆出你的声音？

本文作者：杨丽

2020-03-18 16:32

导语：声音，正成为消除人与机器之间隔阂的关键。

“通过克隆，把自己心爱之人的声音永久珍藏……这可能就是科技应该有的温度吧。”

与小米的最近一次合作中，深声科技为其提供了声音克隆技术，应用在其最新发布的小爱同学定制声音功能上，能让米粉合成自己的、甚至是父母、儿女、恋人的声音，同时还支持音色分享功能。比如，明星将自己音色分享给粉丝后，就能通过声音实现明星和粉丝的“常相伴”。

让米粉为之疯狂的声音克隆技术：深声科技如何用90秒录音克隆出你的声音？

智能语音助手这个颇具想象力的AI应用，正逐渐成为智能终端的基础功能，包括智能手机、智能家居、车载、陪伴机器人等，其普及率有了较大提升，而声音克隆技术的应用，很可能会加速整个进程。

说到声音克隆技术，并非深声科技所独有的，但与竞争对手相比，深声科技CEO周俊明表示：“声音克隆技术上，我们在音色还原度、发音准确率、音质清晰度等方面，具有明显的优势，手机语音助手是我们首个落地场景。”

声音克隆面临哪些技术挑战？

2020年1月中旬，深声科技声音克隆产品正式上线。在此期间，深声团队在众多竞争者中成功拿下了小米方的需求标的。作为与小米小爱同学的一次深度合作，深声科技将为之提供声音克隆核心技术支持。

包括双方的需求对接、内部评估，再到交付，前后用了1个多月时间。

与传统语音合成相比，声音克隆面临更大的技术挑战。首先，声音克隆需要C端用户配合录音，就不能对其录音环境和设备有过分要求。

我们会建议用户选择一个尽可能安静的地方，使用手机完成录音过程。

其次，考虑用户的体验，需要尽可能缩短录音的时长。

这就对我们有很高的要求，传统的语音合成需要几十分钟到几个小时的语音数据，相比之下，声音克隆的数据量少，对声学模型的训练有更高的要求，比如发音模糊、发错音、音素覆盖等一系列问题。当然，最重要的还是音色还原度的问题。

现在，用户只需配合朗读20句话短文本，大约录音90秒的语音数据，就能快速克隆出自己的声音，将个人的情感表达、发音特点等信息迁移到合成声音中，就连口音也能很好地克隆出来。

再次，在实际应用中，还要考虑海量用户发起声音克隆请求的高并发问题。为了节约成本，提升用户体验，就要解决模型切换、模型并发数，以及合成延迟等一系列挑战。

海量用户对声音克隆的频繁调用时，模型间的切换逻辑非常重要。

最后，因为采集到的用户数据会上传到服务器进行模型训练，考虑到用户隐私安全的保护，团队提供了私有化部署的方案，以确保用户数据不外泄。

是否迎来大规模商业化？

过去一段时间，百度、讯飞、搜狗等公司也曾推出声音克隆服务，但似乎并未赢得用户市场的关注。为什么深声科技此次声音克隆技术的上线，会在用户市场引起如此大的反响呢？

周俊明表示，声音克隆大规模商业化需要具备几个条件：

一是克隆的声音有较高的音色还原度，跟真人声音无差异；
二是用户使用门槛不能太高，例如录音条件、发音标准等不能有太高要求；
三是对计算资源的消耗，需要具备个人都能用得起的基础；
四是具备创造出真正的价值，能够提升人们的生活品质。

从这个角度来讲，深声科技与小米的合作开始，就已经具备了将声音克隆技术大规模商业化的能力。

在谈到与普通语音合成的差异时，周俊明表示：

普通语音合成，解决的是如何将语音内容很好地传递出去、更容易地被接收的问题。而声音克隆，体现了用户的社会属性，能够让用户通过声音来服务于他人。这就意味着，每个人的声音的价值能够得到充分体现，在包括亲子互动、情感陪伴、泛娱乐在内的各种场景中具有巨大的应用价值。

让米粉为之疯狂的声音克隆技术：深声科技如何用90秒录音克隆出你的声音？

安全问题如何解决？

将声音克隆引入智能语音助手，会不会引发更多语音诈骗案件的发生？

目前可能普通存在这样的担忧：合成技术的水平发展越高，合成语音与人声的差异就越小，技术鉴定的难度就越大。对此，周俊明也指出，

不必过度担心。问题在于人耳的敏感度不够高，才会对克隆声音没有发觉。但应用技术手段进行区分还是毫无压力的，克隆出来的声音在语谱图中跟真人的声音有明显区别，克隆声音中的很多特征信息已经丢失了。

作为技术服务的输出方，深声科技也十分关注如何规避这项技术的非法应用，在推出之前就考虑了到法律伦理的问题，并给出了三点应对方案：

一是将声音克隆能力只授权给那些有控制能力的企业客户，对于C端用户来讲，只有选择音色的权限，没有自定义克隆声音内容的权限；
二是加强对内容安全的严格审核。不支持用户用随意一段语音进行克隆，要求用户对指定文本进行录音，从而降低声音被利用的风险；
三是通过身份认证、结合生物识别等技术，以限制声音克隆的使用。

关于深声

深声科技是一家专注于“智能语音”技术研发和业务落地的人工智能公司，于2018年在广州天河成立。深声科技拥有一支顶级的人工智能技术团队，自主研发了行业领先的语音合成、声音定制、声音克隆等语音AI技术。

深声的语音AI技术已在众多场景中落地，包括语音助手、智能客服、有声阅读、车载语音、AI教育、动漫等。深声提供的“文字转语音”技术服务，支持的语言也从中文、英文，逐步扩展到了国内方言和海外语种。除了持续不断的技术突破，深声的语音数据制作效率也有了大幅度提升，比如三天交付客户专属定制声音，两个月支持一门新语种。

让声音服务好每个人的生活，深声致力于将语音AI技术融入人们生活的点滴之中，赋予企业和用户以创新与科技力量来创造更美好的世界。

对深声科技智能语音技术感兴趣的读者，可前往深声科技的官网http://www.deepsound.cn/ 或微信小程序“深声AI”亲身体验。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

1人收藏

杨丽

高级主笔

关注企业软件、操作系统、云原生（PaaS）、数据中台 | 微信：leeyangamber

发私信

当月热门文章