Facebook利用深度学习记忆网络训练聊天机器人，与客户自由对话 | ICLR 2017

本文作者：林少宏

编辑：郭奕欣

2017-04-26 10:11

专题：ICLR 2017

导语：Facebook利用深度学习记忆网络训练聊天机器人，使其在目标导向型的应用领域中，可以与客户自由对话，并结合系统API调用，输出用户所需服务，从而提高服务准确度

雷锋网AI科技评论按：ICLR 2017 将于4月24-26日在法国土伦举行，雷锋网AI科技评论的编辑们也在法国带来一线报道。在这个深度学习会议举办之前，雷锋网也将围绕会议议程及论文介绍展开一系列的覆盖和专题报道，敬请期待。

今天介绍的这篇论文由Facebook AI Research两位大牛Antonie Bordes和 Jason Weston 2016 年发表于arXiv，并当选 ICLR 2017 oral paper。

论文展示了一种即可以做自由对话又可以与知识库的API调用相结合的聊天机器人，针对目标导向的聊天机器人进行了研究。传统面向目标的对话系统在应用时的需要做大量的特定领域的手工修正，每扩展到一个新领域也需要做对应的修改。而基于深度学习的目标导向聊天机器人扫除了这一障碍。

面向目标的聊天机器人定义了两种不同的评价标准：每一次回复和针对每一个目标的一轮完整对话的正确率。该系统期望去理解用户的需求并通过有限轮次的对话完成明确的目标，文中以餐馆预订为例，目标是通过对话的方式帮助用户预订餐馆。每个餐馆的属性包括：口味，地点，价格区间，桌子大小，地址，电话，用户评分7个维度。整个订餐任务被划分为5个子任务：

Facebook利用深度学习记忆网络训练聊天机器人，与客户自由对话 | ICLR 2017

图1 基于端到端深度学习的目标导向聊天机器人服务示例

任务1. 用户使用的给定的请求语句，向系统发起预定餐厅的请求，对话系统比对API调用所需的参数，通过提问题的方式向用户请求缺失的字段信息。

任务2.获取任务1中得到的字段后，询问用户是否更改当前查询信息，给用户1~4次修改需求的机会。

任务3. 根据用户需求调用相应 API查询知识库中存储的餐馆信息，并将候选结果按评分由高至低的顺序，列举给用户，直到用户接受为止。

任务4. 待用户选定候选餐厅后，提供该餐厅的其他信息服务，比如提供详细电话、地址信息。

任务5. 整合所有的对话，返回用户在第三个任务中选择的结果。

Facebook团队把订餐这个场景，人为得分为了5种不同难度等级的任务，从最简单的能够发出API Call，到能够完成整段对话。这样拆成5个步骤的对话系统，每个任务的目标都很明确，从而一定程度上避开了对话质难以评估的问题。

团队还测试目前的模型能够达到的性能以及未来的研究方向。文中所用数据并非全部为真实数据，Facebook团队生成了一些模拟的对话数据，5个任务用的都是模拟对话，模拟的方法是用43种语言模式生成用户会话，用20种语言模式生成聊天机器人会话。也使用了DSTC(Dialog State Tracking Challenge)的订餐数据，并将DSTC的数据转换成为了系统所定义的格式。因此，大家并不能直接比较这篇文章和DSTC里其他工作做性能比较。

该系统使用的深度学习网络结构是端到端记忆网络结构(End-to-End Memory Networks)，为了适用目标导向的应用场景，作者对Memory Networks做了如下的扩展：

每一步对话中，当前的用户语句和系统的回答都需要存入Memory里面（这个Memory不是一般的Memory，而是Facebook 重量级项目Memory Networks的一个特殊设施）；
除此以外，系统还需要存放额外的信息，包括Time Index和目前是谁（用户还是系统）在说话，有一个注意力机制（Attention Mechanism）来Memory里查找合适的信息。
最后，输出机制是在一大堆自然语言输出和API 调用之间进行选择。

其中Memory Network为了处理新出现的餐厅名等实体词(OOV)导致缺失word embbeding或者不同电话号码的embeddings不可区分问题, 作者对实体词添加7种预定义的类型词(type word)，取得不错效果。

在餐厅预定模拟的语料上，为了验证处理Out-of-Vocabulary等能力, 作者进一步把菜系和地点实体词分成两份，然后根据两份实体词把KB分成两个，一个KB用于产生训练集，测试集和验证集，另一个KB只产生测试集(OOV test sets)。然后把对话任务分解成5个子任务，在这个模拟语料上训练，用每一次回复和每一轮完整对话的正确率作为评价标准。为了验证模型迁移到其他真实场景的能力，作者收集礼宾服务的语料数据。

文章中分别对基于记忆神经网络的方法、有监督的嵌入模型、基于检索的方法以及基于规则的方法进行了实验，实验表明基于记忆神经网络的方法优于其他方法。Memory Networks在所有的任务上都有不错的表现。由于模型定义得非常个性化，在适应性方面，记忆络网结构相比其他模型有较大差距。

ICLR对这篇文章的的评语：

目前大多数对话系统都是基于自由聊天模型，本文探讨了目标导向的对话系统，类似订餐馆时的对话，虽然该方法论适应场景少，但这不是本文的主要重点。本文的成果是作者提供了具有创意的对话评估标准和开放的数据集。会议评论者喜欢这篇论文，这篇论文在一个广泛探索的话题上树立了很好的口碑，并开辟了一个相当新颖的方向。

Via Learning End-to-End GoalOriented Dialog