2019年，Alexa将会走向何方？

本文作者：赵晨希

2018-12-24 18:57

导语：2018年，亚马逊Alexa语音助手取得的进步更多来自于广度而不是深度。

2018年，亚马逊Alexa语音助手取得的进步更多来自于广度而不是深度。记得，亚马逊在2014年秋季推出了第一款AI人工智能音响Echo时，当时很多人都不了解Echo的运行机制是怎样的。从2014年到2018年，Echo以及Alexa驱动的智能设备，已经渐渐褪去神秘感，遍布人们日常生活中的每一个角落。

亚马逊语音助手Alexa的可用国家数量已经增加了一倍之多，取得规模上的较大收益。对于初级用户而言，可以利用Alexa学习法语和西班牙语。现阶段，有超过2万8千台智能设备与Alexa展开合作，是今年年初合作设备数量的6倍之多。Alexa内置入100多种不同的产品、设备中。还记得1999年首次出售的大嘴比利·巴斯Big Mouth Billy Bass吗？这条会转头、可以摇动尾巴、张嘴唱歌的鱼，在今年已经可以兼容Alexa了。

Alexa在2018年的发展路径，时刻影响、定义着2019年乃至更远将来的发展趋势。Alexa正在悄悄、微妙地发生着一些改变，这些改变大众平时可能根本没有注意、察觉到。

技术与改变

在过去的一年中，Alexa get到了很多新技能。举例来讲，Alexa可以根据上下文，从一个查询转移到下一个查询，激活后续问题，无需重复唤醒单词。用户可以根据自己的需求，要求Alexa在同一个请求中执行多项操作，在Alexa应用程序中召唤一个技能，且无需知道确切的名称。

这些小的调整并不可见，但累积后，量变引起质变。用户与机器的交流，变得更加柔和、顺畅，比一年前更加自然。亚马逊不断引入、完善机器学习技术。在人类语言专家的帮助下，通过系统识别中的主动学习功能，大大降低了错误率。

亚马逊Alexa的副总裁兼首席科学家Rohit Prasad表示，主动学习已经融入进亚马逊的每个渠道中，包括语音识别和自然语言理解。“这些使得亚马逊的所有机器学习模型更加完善。”

近年来，数据表示已经成为一项重要的研究课题。自然语言理解（NLU）系统很少输入原始文本，而是采用嵌入形式。数据表示保留文本的语义信息，而不是以持续、确定的方式呈现。采用嵌入式改善特殊的NLU任务已经被多次应用。

今年IEEE语言技术峰会上，亚马逊展示了专门针对Alexa NLU的数据表示方案。数据显示，在一些关键任务的技能选择上，以及在数千种技能中，该方案将技能选择错误率降低了40%。在Alexa的NLU系统中，用户语言经过了更加细粒度的分类。

首先，对话领域或者对话主题的分类，例如，音乐、天气。其次，根据潜在的意图，或者用户所希望的对话分类。比如，音乐领域中，可能是搜索、播放、下载等指令。最后，根据词语位置类型进行分类。例如，播放AA唱的XX歌曲，AA属于歌手名字，XX属于歌曲名字。

亚马逊数据表示方案通过领域、意图、位置三个方面形成了一个比较自然的层次结构。通过一系列语言位置，将语言串联起来来界定用户意图，一系列的意图构成了域。亚马逊已经训练了覆盖17个域在内的24.6万个语言神经网络。该网络首先生成一个位置表示（雷锋网注：slot representation），然后生成意图表示（intent representation），最后产生域表示（domain representation）。

在训练期间，神经网络需要评估怎样准确地对域分类，其目的在于表达（雷锋网注：representation）而不是分类（classification）。评估有效地执行了表示的层次结构，即确保语言位置和意图不会丢失域所必须的任何信息。网络输入时，首先会通过一个“去词汇化器”，即用一个特定的语言位置值代替，例如，播放Drake的Nice for What，变为播放歌手的歌曲。这个过程由单独的NLU系统处理。网络分类的目的在于分类表示的最佳方法，而不是进行分类。

2019年，Alexa将会走向何方？

雷锋网注：架构图，如何产生意图，聚合意图，产生域表示

去词汇化的语句传递进入嵌入层，该层采用现成的嵌入网络。网络将单词转换成固定长度的向量—数字串。比如，在高纬空间中的空间坐标，将有相似意义的单词聚集在一起。特定的词语通过去词汇化器，由网络以简单的标准嵌入，但语言位置的理解会有所不同。通过训练表示网络。算法对训练数据进行梳理，以识别每个语言位置采用的可能值。比如，天气领域天气状况相关的语言位置，可能包括风、暴雨、雪、暴雪等等。

具有相似词语含义的嵌入词彼此空间位置接近，平均嵌入层的几个相关词汇可以捕获其空间位置的接近性。在训练以前，去词汇化的位置被简单的嵌入，作为平均的可能值。训练过程中，可以修改嵌入网络的设置，根据语言位置、意图、域的特性情况进行调整，基本原则仍为对向量进行分组。

去词汇化话语嵌入后传递到双向长短期记忆网络。长短期记忆LSTMs按顺序处理数据，并在其之前的输出中，处理给定的输出因子。LSTM在NLU中被广泛使用，因为它可以根据在句子中的位置来学习解释单词。融合LSTM(bi-LSTM)是处理从前到后和从后到前相同输入序列的一种LSTM。

bi-LSTM的输出是一个向量，用作意图表示。意图向量通过单个网络层，该网络层产生域表示。为了评估表示方案，亚马逊将编码输入到两种技术选择系统中。当使用原始文本作为输入时，系统准确率为90%，亚马逊则将准确率提高到94%。

为了证明其表示成功依赖于分类类别的分层嵌套，将设计的三个不同系统进行比较，通过融合LSTM编码的去词汇化输入学习域和意图嵌入。三个系统显示原始文本的改进，均不能匹配分层系统。“从本质讲，通过深度学习，亚马逊对大量领域进行了建模，并将学习转移到新的领域或者新的技能。”Rohit Prasad说。

最近，亚马逊推出了迁移学习，该项目属于亚马逊未来战略的一部分。机器学习的改进最直接的影响就是使得系统错误率较去年减少25%。此外，今年12月，亚马逊启动了机器的自学习，系统可以联系上下文线索进行修正。Rohit Prasad举例说，用户对Echo说玩XM Chill请求失败时，可以通过说播放Sirius 53频道继续收听。对于Alexa而言，XM Chill和Sirius 53频道的意义是相同且独立的。“从隐藏式反馈中学习。”

现状与未来

“当两个人开始说话时，很容易感受、理解到对方的情绪，系统却对此无能为力。人们正在努力地开发能够使得系统更加成熟，更能够理解对话如何发展的人性化能力。”卡内基梅隆大学语音识别专家Alex Rudnicky说。

今年秋天，亚马逊的一项技术专利显示，Alexa可以识别用户的情绪并做出相应的反应。Rohit Prasad表示，Alexa的最终目标是远程会话功能，根据要求对给定的问题作出不同的反应，当然，成为一个理解语音、语调微妙差别的语音助手还有很长的一段路需要走。Alex Rudnicky认为人类的五大情绪中，愤怒最容易辨别成功。

现阶段，亚马逊在稳定版本中拥有7万项技能，从测试、游戏再到冥想，是两年前的7倍之多。随着Alexa设备的增加，其技能也在不断地改善。Alexa可以很好的预测人们的意图，不过更多Alexa用户并不了解其潜在的用途，厨房、闹铃成为用途最多的场景。另一方面，开发者也没有更多的精力、动力研究用户更多的潜在应用场景。

事实上，语音助手除了直接表现出的使用需求之外，还拥有很多潜力。更多人使用Alexa收听美国国家公共电台、检查天气。2016年Alexa推出过互动幻想的游戏，算法显然难以提醒用户Alexa其它潜在功能的存在。

“如果我们向用户介绍新技能、新功能，与用户正在做的事情高度相关，那么，结果是好的。值得注意的是，这些推荐需要适当的时机，适当的内容。否则，会造成信息过载。”Toni Reid说。Canalys数据显示，2018年Q3Echo出货量为630万台，谷歌仅次之，出货量为590台。尽管谷歌起步较晚，但谷歌已经成为亚马逊不能忽视的竞争对手。

从市场体量来看，不包括第三方设备，Alexa在使用数量、用户基数上占据了主导地位。但谷歌的优势依旧明显，Canalys分析师Vincent Thielke表示，谷歌拥有多年的人工智能积累，Alexa则是从头开始。谷歌在人工智能领域绝对领先，所以很容易赶超亚马逊。

Android、Android Auto、WearOS，可以为谷歌助手提供更多土壤。亚马逊曾在2014推出Fire Phone，失败较为惨烈，所以在移动端口，亚马逊的选择极其有限。在汽车领域的较好表现，不能抵消其在原生项目集成方面落后于谷歌、苹果。

不可否认的是，亚马逊Alexa增长趋势丝毫没有放缓的迹象。优势和缺点同样明显的Alexa未来将会走向何方，只有Alexa知道答案。

via：亚马逊；wired

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

2人收藏

赵晨希

编辑

简单是终极的复杂。WeChat：chenxi252516

发私信

当月热门文章