您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
业界 正文
发私信给杨丽
发送

0

让米粉为之疯狂的声音克隆技术:深声科技如何用90秒录音克隆出你的声音?

本文作者:杨丽 2020-03-18 16:32
导语:声音,正成为消除人与机器之间隔阂的关键。

“通过克隆,把自己心爱之人的声音永久珍藏……这可能就是科技应该有的温度吧。”

与小米的最近一次合作中,深声科技为其提供了声音克隆技术,应用在其最新发布的小爱同学定制声音功能上,能让米粉合成自己的、甚至是父母、儿女、恋人的声音,同时还支持音色分享功能。比如,明星将自己音色分享给粉丝后,就能通过声音实现明星和粉丝的“常相伴”。

让米粉为之疯狂的声音克隆技术:深声科技如何用90秒录音克隆出你的声音?

智能语音助手这个颇具想象力的AI应用,正逐渐成为智能终端的基础功能,包括智能手机、智能家居、车载、陪伴机器人等,其普及率有了较大提升,而声音克隆技术的应用,很可能会加速整个进程。

说到声音克隆技术,并非深声科技所独有的,但与竞争对手相比,深声科技CEO周俊明表示:“声音克隆技术上,我们在音色还原度、发音准确率、音质清晰度等方面,具有明显的优势,手机语音助手是我们首个落地场景。” 

声音克隆面临哪些技术挑战?

2020年1月中旬,深声科技声音克隆产品正式上线。在此期间,深声团队在众多竞争者中成功拿下了小米方的需求标的。作为与小米小爱同学的一次深度合作,深声科技将为之提供声音克隆核心技术支持。

包括双方的需求对接、内部评估,再到交付,前后用了1个多月时间。

与传统语音合成相比,声音克隆面临更大的技术挑战。首先,声音克隆需要C端用户配合录音,就不能对其录音环境和设备有过分要求。

我们会建议用户选择一个尽可能安静的地方,使用手机完成录音过程。 

其次,考虑用户的体验,需要尽可能缩短录音的时长。

这就对我们有很高的要求,传统的语音合成需要几十分钟到几个小时的语音数据,相比之下,声音克隆的数据量少,对声学模型的训练有更高的要求,比如发音模糊、发错音、音素覆盖等一系列问题。当然,最重要的还是音色还原度的问题。

现在,用户只需配合朗读20句话短文本,大约录音90秒的语音数据,就能快速克隆出自己的声音,将个人的情感表达、发音特点等信息迁移到合成声音中,就连口音也能很好地克隆出来。

再次,在实际应用中,还要考虑海量用户发起声音克隆请求的高并发问题。为了节约成本,提升用户体验,就要解决模型切换、模型并发数,以及合成延迟等一系列挑战。

海量用户对声音克隆的频繁调用时,模型间的切换逻辑非常重要。

最后,因为采集到的用户数据会上传到服务器进行模型训练,考虑到用户隐私安全的保护,团队提供了私有化部署的方案,以确保用户数据不外泄。

是否迎来大规模商业化? 

过去一段时间,百度、讯飞、搜狗等公司也曾推出声音克隆服务,但似乎并未赢得用户市场的关注。为什么深声科技此次声音克隆技术的上线,会在用户市场引起如此大的反响呢?

周俊明表示,声音克隆大规模商业化需要具备几个条件:

一是克隆的声音有较高的音色还原度,跟真人声音无差异;

二是用户使用门槛不能太高,例如录音条件、发音标准等不能有太高要求;

三是对计算资源的消耗,需要具备个人都能用得起的基础;

四是具备创造出真正的价值,能够提升人们的生活品质。

从这个角度来讲,深声科技与小米的合作开始,就已经具备了将声音克隆技术大规模商业化的能力。

在谈到与普通语音合成的差异时,周俊明表示:

普通语音合成,解决的是如何将语音内容很好地传递出去、更容易地被接收的问题。而声音克隆,体现了用户的社会属性,能够让用户通过声音来服务于他人。这就意味着,每个人的声音的价值能够得到充分体现,在包括亲子互动、情感陪伴、泛娱乐在内的各种场景中具有巨大的应用价值。

让米粉为之疯狂的声音克隆技术:深声科技如何用90秒录音克隆出你的声音?

安全问题如何解决?

将声音克隆引入智能语音助手,会不会引发更多语音诈骗案件的发生?

目前可能普通存在这样的担忧:合成技术的水平发展越高,合成语音与人声的差异就越小,技术鉴定的难度就越大。对此,周俊明也指出,

不必过度担心。问题在于人耳的敏感度不够高,才会对克隆声音没有发觉。但应用技术手段进行区分还是毫无压力的,克隆出来的声音在语谱图中跟真人的声音有明显区别,克隆声音中的很多特征信息已经丢失了。

作为技术服务的输出方,深声科技也十分关注如何规避这项技术的非法应用,在推出之前就考虑了到法律伦理的问题,并给出了三点应对方案:

  • 一是将声音克隆能力只授权给那些有控制能力的企业客户,对于C端用户来讲,只有选择音色的权限,没有自定义克隆声音内容的权限;

  • 二是加强对内容安全的严格审核。不支持用户用随意一段语音进行克隆,要求用户对指定文本进行录音,从而降低声音被利用的风险;

  • 三是通过身份认证、结合生物识别等技术,以限制声音克隆的使用。

关于深声

深声科技是一家专注于“智能语音”技术研发和业务落地的人工智能公司,于2018年在广州天河成立。深声科技拥有一支顶级的人工智能技术团队,自主研发了行业领先的语音合成、声音定制、声音克隆等语音AI技术。

深声的语音AI技术已在众多场景中落地,包括语音助手、智能客服、有声阅读、车载语音、AI教育、动漫等。深声提供的“文字转语音”技术服务,支持的语言也从中文、英文,逐步扩展到了国内方言和海外语种。除了持续不断的技术突破,深声的语音数据制作效率也有了大幅度提升,比如三天交付客户专属定制声音, 两个月支持一门新语种。

让声音服务好每个人的生活,深声致力于将语音AI技术融入人们生活的点滴之中,赋予企业和用户以创新与科技力量来创造更美好的世界。

对深声科技智能语音技术感兴趣的读者,可前往深声科技的官网http://www.deepsound.cn/ 或微信小程序“深声AI”亲身体验。

雷峰网原创文章,未经授权禁止转载。详情见转载须知

分享:
相关文章

高级主笔

关注企业软件、操作系统、云原生(PaaS)、数据中台 | 微信:leeyangamber
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说