您正在使用IE低版浏览器，为了您的雷峰网账号安全和更好的产品体验，强烈建议使用更快更安全的浏览器

此为临时链接，仅用于文章预览，将在时失效

人工智能正文

发私信给李智勇

发送

0

亚马逊 Echo大获成功，远场语音交互技术在其中究竟扮演了什么角色？ | 深度

本文作者：李智勇

编辑：谷磊

2017-05-11 18:34

导语：李智勇老师的这篇文章不仅揭示了远场语音交互的核心技术，还对商业化落地的路径进行了深入的解读，无论是语音交互的技术人员，还是产品经理，都值得一读。

雷锋网按：本文作者李智勇，声智科技联合创始人，十年栈道程序员，有一个好玩的公号：zuomoshi（琢磨事）。本文为雷锋网首发文章。

关于远场语音交互，声智科技 CEO 陈孝良告诉雷锋网：“语音是最简单、最自然的人机交互方式，同时也是技术难度最大的交互方式，特别是语音交互从近场走向远场落地到真实场景，必须考虑噪声、混响、回声等声学问题，以及数据差异引入的机器学习模型问题，这些都是保证自由人机交互的核心技术。”

但是网络上横跨声学和计算机学科的教育资源太少，李智勇老师的这篇文章不仅揭示了远场语音交互的核心技术，还对商业化落地的路径进行了深入的解读，无论是语音交互的技术人员，还是产品经理，都值得一读。

手机之后国外各大巨头非常罕见的步调一致的在做同一件事情：智能音箱。而这一切最初的驱动力来自于Amazon Echo，但有意思的事情是Amazon Echo这产品根本没做任何的功能上的创新，听歌、看新闻、设闹钟、说笑话、控制家电等所有东西都可以在手机上找到替代品，它唯一的变化只是把语音交互的方式从近场升级为远场，并把精度和速度打磨到非常优秀的程度。只是这么一点点变化，似乎就要创造一个无比巨大的行业，那远场语音交互为什么有这么大的威力？

语音交互等价于远场语音交互

极端的讲法是世界上并不存在一种方式叫近场语音交互，语音交互基本等价于远场语音交互。事实证明过去很多年里各种近场语音交互的尝试（比如Siri）并没获得很好的进展，甚至简单实用的语音输入法也没能成为主流。从应用场景来看远场和近场的核心差别是拉开和语音设备的距离后，双手再也没用了。这样和触屏就可以彻底的差异化，可以彻底的发挥语音的快捷优势。想象下面的场景：

在微信里给一个人打视频电话，如果用手机那是下面这样的过程

亚马逊 Echo大获成功，远场语音交互技术在其中究竟扮演了什么角色？ | 深度

如果变成远场语音，那核心步骤会变成两个

亚马逊 Echo大获成功，远场语音交互技术在其中究竟扮演了什么角色？ | 深度

显然在这两种场景下便利程度是完全不一样的，这种便利理论上讲在近场的情形下同样存在，但核心点在于近场时就需要挑战用户根深蒂固的触屏习惯，这很难。触屏虽然大流行，但显然并没能在笔记本上挑战键盘鼠标的既有地位。这不单是偏好问题，也与各种应用与特定交互方式的绑定有关。触屏虽然好用，但并不能完全在Office上用起来，所以如果Office根深蒂固，那么键盘鼠标就根深蒂固。所以我们说，语音交互基本等价于远场语音交互，一旦它真的成为主流交互方式，培养了用户习惯，那反过来才可能在近场的场景（比如近场的Siri）下占有一席之地。

远场语音交互的核心技术

远场语音交互如果变的无处不在，那Amazon Alexa（以及同类产品）会变成新一代的Android，那个时候整个生态会像下面这样：

亚马逊 Echo大获成功，远场语音交互技术在其中究竟扮演了什么角色？ | 深度

这个时候Alexa这样的系统同时覆盖了传统上Android和应用商店的角色，在其上面则会有新的今日头条、新的O2O等。而如果要把Alexa所依托的技术进行细分的话，那么基本上是三层：

前端的声学部分（算法+阵列）
识别
NLU

这样一来远场语音交互就正好面临一大一小两个瓶颈：

亚马逊 Echo大获成功，远场语音交互技术在其中究竟扮演了什么角色？ | 深度

第一个瓶颈是眼下就要解决的问题，即在语义仍然有限制的条件下，打造偏命令控制的产品，这个时候产品的ID很难拟人化（想想Echo，Airpods这些产品），一旦拟人用户的潜在期望就会无限拔高，你也就不可能做出非常满足用户体验的产品。
第二个瓶颈则具有一定的不确定性，具有探索性质，我们仍然还不知道什么时候自然语言理解中可以体现出真的智能，但确实只有这点做了突破，并且同计算机视觉进行融合才能真的做好拟人的机器人。

而为了解决第一个瓶颈事实上需要做好的事情有两个：

一个是前端声学算法软硬件的持续优化
一个是通过获取的数据重新训练云端的ASR

这个过程可以用下图橙色的部分来概括。

亚马逊 Echo大获成功，远场语音交互技术在其中究竟扮演了什么角色？ | 深度

上述这个看着并不太长的链条其实复杂度非常高，它即跨越不同的学科（声学部分属于经典物理，识别部分则属于CS），也需要打穿软硬件。

在算法层面只是前端就需要处理大量经典问题，比如降噪、去混响、回声抵消、Beamforming等。加不加这些算法的音频信号差异极大，如：

亚马逊 Echo大获成功，远场语音交互技术在其中究竟扮演了什么角色？ | 深度

（具体效果试听可以参照http://soundai.com/demo.html）

而我们经常说的麦克风阵列即使抛开算法不论，单只在硬件层次上也远不是标准品：

亚马逊 Echo大获成功，远场语音交互技术在其中究竟扮演了什么角色？ | 深度

上图是一款强调通用性的麦克风阵列，通过USB连接可以随便连接到笔记本、PAD、手机上进行使用。同样的阵列还可以做成线性、L型、球形，最终的目的都是匹配特定的场景，让最终远场交互的精度最优。

亚马逊 Echo大获成功，远场语音交互技术在其中究竟扮演了什么角色？ | 深度

如果进一步下探，那就会出现更为底层的选择，比如是用驻极体麦克风还是用MEMS的，是用数字的还是用模拟的。

亚马逊 Echo大获成功，远场语音交互技术在其中究竟扮演了什么角色？ | 深度

再进一步挖掘，麦克风从特性上还可以进一步细分，比如：

亚马逊 Echo大获成功，远场语音交互技术在其中究竟扮演了什么角色？ | 深度

所有上面这些点如果不能一一理顺，那就没法给用户输出一种综合性的体验，单点最优在远场语音交互这里价值很小，相当于必要不充分条件。只有能够综合，并且能够优化单点才真的能够解决当前产品落地中的实际问题。

（编辑友情提醒：声智科技即将推出的“远场语音交互课程”中，将会对Echo进行拆解并做技术剖析，有兴趣深入了解的，可以关注一下。传送门：实战特训：远场语音交互技术）

技术和商业上的正反馈

几乎所有大公司都感受到了远场语音交互背后的价值，所以纷纷试水：继亚马逊、Google之后，微软宣布了自己的智能音箱产品，预计苹果也会宣布自己的相似产品。但是远场语音交互的落地却可能比大家期望的要慢。核心点就在于技术-商业上的正反馈需要一定的启动周期。显然的技术不好用，产品体验就不好；而反过来产品没销量技术就缺乏打磨的场景，内容配套也就不会跟上。这种互锁状态就会形成一个冷启动周期，在这个周期里做技术的公司打磨自己的技术，在没那么大量的产品上落地，产品公司则接受技术现实，打磨自己的产品。这样一来整个远场语音交互很可能会跑下面的曲线：

亚马逊 Echo大获成功，远场语音交互技术在其中究竟扮演了什么角色？ | 深度

这个过程是可以和过去很多商业现实验证的，比如2007年iPhone发布，小米手机则要迟到2011年，这期间的4年可以看成是智能手机的启动期，一旦这个市场启动后则进入一个高速增长期，小米手机的销量迅速从2012的700多万台增加到2014年的6000多万台。

远场语音交互的这个技术-商业正反馈当前还处在非常初期的阶段，亚马逊的Echo（各种型号）如果2017年的销量真的逼近2000万台，那基本上可以认为在美国，技术-商业的正反馈第一回合完成。而在国内，同品类产品销量都还处在几万、十几万量级的水平，这个技术-商业的正反馈远未完成。

当然这并非坏事，在格局已定的市场上，后来者是没有机会的；只有在这种充满未知的领域上，创业者才真的有颠覆性的机会。如果回退到20年前，联想、门户相对于现在的BAT都是巨无霸型公司，要资源有资源，要渠道有渠道，要人有人但很有意思的事情是BAT最终崛起了。

小结

手机的触屏把很多人塑造成了低头族，远场语音交互估计会塑造出许多和机器说话的人。那时候语言不再只是人和人的交互手段。

雷锋网注：现在雷锋网 mooc.ai 已推出了远场语音交互技术的实战特训班，由语音交互专家、声智科技 CTO 冯大航主讲，为你剖析语音信号处理，麦克风阵列信号处理，语音识别中的关键技术及实用技巧。为了鼓励更多人投入语音领域，声智科技提供价值1999元的 SAI_MICA_41T-UI、USB 版本的开发版给学员，增强实操练习。5月17日即将开课，感兴趣的同学可点击链接报名。

（完）

雷峰网特约稿件，未经授权禁止转载。详情见转载须知。

17人收藏

分享：

相关文章

李智勇

专栏作者

十年栈道程序员，有一个好玩的公号：zuomoshi（琢磨事）

发私信

当月热门文章

最新文章

热门搜索

Instagram 激光雷达美国 CES iPad mini AI芯片互联网金融软银苏宁 Airbnb Pebble

为了您的账户安全，请验证邮箱

您的邮箱还未验证,完成可获20积分哟！

重发邮箱修改邮箱

请验证您的邮箱

立即验证

完善账号信息

您的账号已经绑定，现在您可以设置密码以方便用邮箱登录

立即设置 以后再说