AI Frontiers | 微软首席 AI 科学家邓力演讲：口语对话系统的分类及三代演变

本文作者：三川

2017-01-19 20:46

导语：雷锋网参会记者为大家整理出这份演讲实录。

编者按：邓力博士原为加拿大滑铁卢大学教授，1999 年加入微软，2016 年起担任微软首席人工智能科学家，负责微软深度学习技术中心应用趋向的深度学习研究。

在上周的 AI Frontiers 会议上，邓力博士为参会嘉宾做了口语对话系统的专题演讲。雷锋网与会记者将现场演讲记录下来，结合 PPT 为大家整理出这份演讲实录。此次邓老师介绍了口语对话系统的分类，三代演变史，以及三大研究前沿领域，可谓干货满满。NLP 领域的童鞋们不可错过。

邓力：

今天，我想讲一讲口语对话系统（Spoken Dialogue System）。 “Spoken Dialogue System” 成为一个术语已经有 30 年了，现在我们也称其为对话式交互界面（conversational UI），或者称为“bots”。所以它有好几个术语，但基本指的是同一件事。开发这类系统，需要能够与人对话，要么通过语音，要么通过文字。这次我专门讲语音，以及这两类 bots 之间的根本性区别。

语音识别 vs 基于文字

语音识别技术在最近五年中飞速进步，这两类对话系统之间的差距在缩小，这是一个很重要的信号。但在另一方面，许多情况下我们仍然有许多语音识别错误。在某种程度上，我们可以把对话系统看作：

对话系统=语音识别+基于文字（text-based，或翻译为“语义理解”）的系统

语音识别向基于文字的对话系统，提供了一些低延迟的文字输入。因此你可以把它们放在一起（认为它们对等），这是较传统的观点。

如今，你可以超出传统观点，来思考怎么做出整合的系统设计。相比把这两类系统一起放进管道（pipeline），你可以事实上做得更好。这就是整合学习（integrated learning）的概念。我会聚焦在这个方向。

语音提供了语言之外的信息（Para-linguistic cues），比如语气、情绪。这在基于文字的对话系统里是没有的——后者没有提供这些信息，或者说线索。从这个方面来说，两个系统不是对等的。取决不同的用户，语音输入可能会比文字输入更简单——但也可能更复杂。对我个人而言，由于对语音比较了解，我倾向于使用语音来表述复杂事实，它的错误率未必会那么高。语音使得我能更快地提供更多信息。但对于大多数人而言，当使用基于文字的对话，他们倾向于使用复杂句式。原因要么是这样做更快，要么更可能的是，他们会担心对方的语音识别能力，然后不想重复、或者说太多，尤其在噪声大的环境下。取决于用户的个人特质，这两种情况都可能发生。我认为，随着时间流逝，语音识别系统越来越成熟，语音和文字对话在这方面的差距会越来越小。

另一个很重要的方面是窄领域 vs 宽领域（narrow domain vs wide domain）。基于语音的对话倾向于聚焦在窄领域。但现在正变得不一样，因为语音识别技术的进步。

几个月前，Venturebeat 发表了一篇很不错的文章“Introducing the Bots Landscape”，对口语对话系统作了概括（再次提醒，有些人称其为 Bots，有时称之为对话式交互界面），以及它们的业界现状。

AI Frontiers | 微软首席 AI 科学家邓力演讲：口语对话系统的分类及三代演变

Bots 领域的景观一览

上栏：有吸引力的 Bots；左栏（由上至下）：连接器/分享服务，发现 Bot ，分析；右栏（由上至下）：AI 工具：NLP、ML、语音识别；Bot 开发者框架和工具，短讯

对话系统可被看作是一个连接器，来把你的技术与第三方相连。然后你有一系列开发框架和工具来实现这点。微软在这方面有大动作：11 个月前，微软 Build 开发者大会上有一个重大的宣布，即 Microsoft Bot Framework（微软 Bot 框架），它让大家、第三方都能使用。

Bots 的分类

由于时间限制，今天我只会聚焦于 AI 工具，在自然语言处理（NLP）、语音识别这方面。从这个角度，我会回顾自 1990 年代初以来，相关技术经历的三代发展。

几个月前，我写了这篇文章“How deep reinforcement learning can help chatbots”，讨论 bots的价值。今天的话题以该文章为基础。文章中，我首先谈到了app 和网络模型（web models）遇到的问题；其次，对话作为一个新生的、正不断壮大的移动交互界面（mobile UI），以及在这之中，bots 扮演的人机之间智能代理的角色。我会对技术细节作更深入的讨论。

我把 bots 归纳为三个类别：

社交机器人（social chatbot）。这方面，微软在中国开发的“小冰”相当成功，是个很好的例子。在美国，几个月前我们发布了聊天机器人 Tay（雷锋网注，这就是学会了骂人、在推特上发布不到一天就被紧急撤下的那个，入选年度十大 AI 事件）。
信息机器人（infobot）。它们其实是搜索引擎部分功能的替代——它们允许用户不再需要点击网页链接，而能够直接获得想要搜索的答案。这减少了一部分麻烦。如果问题比较复杂，你也许只需要两三轮解释来是回答更明确。
任务完成机器人（task completion bot），它们能为你做事情。相比只能交谈、对话的社交机器人，它们能处理实际问题，所以一般需要第三方的帮助。

口语对话系统的三代发展

现在，我开始讲过去一些年技术的进步。近几年，我们经历了不少次公众对于 AI 技术的兴奋高潮（hype）。但现实是，相关技术的基础在 1980 年代末、1990 年代初就已经开发出来了。我会对这些技术如何从第一代发展到最新一代作个概括。

第一代：基于符号规则、模板

AI Frontiers | 微软首席 AI 科学家邓力演讲：口语对话系统的分类及三代演变

首先，第一代技术从 1980 年代末开启，在流行度上面，几年前这一波技术就可以说是结束了，虽然你能够发现一些商用系统和 bot 初创企业还在使用它们。这代技术依赖于专家人工制定的语法规则和本体设计（ontological design）。这些规则很容易解释、理解，比较透明，这就是这代技术为什么能催生出一系列的成功商业应用的原因。修补漏洞很容易，系统更新也很容易。

它的局限性：