ACL2016最佳论文：通过交互学习语言游戏

本文作者：章敏

2016-07-26 10:39

导语：本文介绍了一种与构建适应性的自然语言接口有关的新型语言学习设置，目的是人和电脑协同合作完成积木游戏。在游戏过程中，人必须教会电脑一种着语言来进行交流。

通过交互学习语言游戏

联合编译：章敏，高斐，陈圳

摘要

我们介绍了一种与构建适应性的自然语言接口有关的新型语言学习设置。它受到维特根斯坦语言游戏（Wittgenstein’s language games）的启发：一个人希望完成某种任务（例如：搭建某种积木结构），但是只能与计算机交互，让计算机完成实际操作（例如：移动所有的红色积木）。计算机最初对语言一无所知，因此必须通过交互从零开始学习，同时人类适当调整计算机的性能。我们创造了一种叫做 SHRDLURN 的积木游戏，并收集了 100 位玩家与计算机的交互。首先，我们分析了人类的策略，发现使用组合型和避免同质化与任务表现呈正相关。其次，我们比较了计算机策略，发现在语义分析模型基础上的构建语用学（pragmatics）模型能为更多策略玩家加速学习过程。

1.简介

Wittgenstein说一段著名的话：语言源于它使用的意义，并且它还介绍了语言游戏来说明语言流动性和目的性的概念。他描述了搭建者B和助手A如何使用原始的语言（由“块”，“柱”，“板”，“梁”四大块组成）成功的进行交流，将方块从A移动到B。这仅仅是其中一个语言；还有很多语言同样可以完成合作目标。

本文在学习设置中探讨和实施了语言游戏的想法，我们称之为通过语言游戏进行互动学习（interactive learning through language games/ILLG）,在ILLG设置中，两个参与者最初说不同的语言，但仍然需要合作完成一个目标。具体来说，我们创造了一个叫作SHRDLURN的游戏，致敬Winograd的开创性工作。如图1所示，目标是将初始状态转变成目标状态，但人唯一可以进行的操作是进入一种话语。计算机根据其目前的模型，分析话语并产生可能的理解排名列表。人类通过列表从上至下移动，并选择预定的状态，与此同时推进块的状态，并向计算机提供反馈。人类和电脑都希望用尽可能少的移动达到目标状态（目标状态只有人类知道）。电脑要成功的话，它就必须在游戏的过程中迅速学习人类的语言，以便人类可以高效的完成目标。相反，人类也必须容纳电脑，至少部分理解它可以做什么，不能做什么。

ACL2016最佳论文：通过交互学习语言游戏

我们在ILLG中将电脑模拟成一个语义分析器（3节），它将自然语言的话语映射（例如，“删除红”）成逻辑形式（例如，删除（红色））。语义分析器没有种子词典和注释逻辑形式，所以它只是产生许多候选的逻辑形式。基于人类的反馈，它在对应简单的词汇特征参数上进行在线梯度更新。

在过程中，我们发现：虽然电脑最终可以学会语言，但它的学习速度和期望值差很多。例如在学习将删除红转换成逻辑形式删除（红色）后，电脑会将删除青色也转换成逻辑形式删除（红色），而人类可能会使用互斥性排除该假设。因此，我们介绍一个语用学（pragmatics）模型，在模型中计算机非常了解人类的思维。受到前面语用学（pragmatics）工作的启发。为了模型适合ILLG设置，我们介绍了一种新的在线学习算法。凭经验，我们证明了相比于10个最成功的游戏者时最好的非-语用学模型（第5.3节），我们的语用模型将在线的准确性提高了8%。

ILLG设置的特别之处是学习的实时性，其中人类也同样学习并适应电脑。结构人类可以教计算机任何语言—英语，阿拉伯语，波兰，一个自定义的编程，但优秀的玩家会选择使用让计算机可以更快学会的语言。在交际用语理论中，人类包容计算机。使用Amazon Mechanical Turk，我们从SHRDLURN的100款游戏中收集并分析了大概10k的语句。结果显示成功的玩家趋向于使用具有一致词汇和语法的组合语句，这符合电脑的感性偏见（5.2节）。此外，通过这种互动，许多玩家通过变得更加一致，更精确，更简洁以适应计算机。

在实用方面，自然语言系统经常被训练和部署，用户在生活中必须忍受他们的不完美。我们相信对于创建自适应和可定制的系统，学习ILLG设置是不可或缺的，特别是对与资源贫乏的语言和新的领域（从接近零开始是不可避免的）。

2.设置

我们现在正式的描述语言游戏互动学习（ILLG）的设置。有两个游戏玩家——人类和电脑。游戏通过固定数量的级别进行。在每一个级别中，两个玩家都被提供了初始状态s∈γ，但只有人类玩家知道最终状态t∈γ（例如。在SHRDLURN中，γ是块的所有配置集）。人类发送一个话语X（例如，删除红色）到电脑。随后电脑建立可能候选动作的排名列表Z =[z₁, . . . , z_K] ⊆ Z （例如, remove(with(red))，add(with(orange))，等），其中Z是所有可能的行为。对于每一个z_i∈Z，都计算yi=[zi]s，状态s上执行行动的继承状态。计算机返回给人类继承状态的有序列表Y = [ Y₁，。..Y_K]。然后人类从列表Y中选择y_i（如果i=1则计算正确）。随后状态更新为s=y_i。当S = T是该级别结束，且玩家前进到下一个级别。

由于只有人类知道目标状态t且只有电脑可以进行运动，因此要成功的进行游戏，人类就必须在语句x中编程希望的行动。然而，我们假设两个玩家没有共享的语言，使用人类必须挑选语言并教会电脑这种语言。作为一个额外的曲折，人类不知道确切的行动Z（虽然他们对计算机的功能可能有一些概念）。最后，人类只看到计算机的行动的结果，而不是实际的逻辑行动本身。

我们期望游戏按如下程序进行：在一开始，电脑不懂人类的意思并执行任意的行动。当电脑获得反馈并且学习后，他们两个应该变得更精通于沟通，从而玩游戏。我们的关键设计原则是：要实现良好的游戏性能，玩家需要语言学习。

SHRDLURN.我们现在讲述一下游戏SHRDLURN的具体细节。每一个状态s∈γ由排列在一行的彩色块的堆栈组成（图1），其中每一个堆栈都是是块的垂直列。行动Z通过表1中的语法成分进行定义。每一个行动既不会从堆栈集增加，也不会移除，并通过各种设置操作计算堆栈和选择颜色。例如，行动删除（最左边（与（红色）））即删从最左边的堆栈移除顶端是红色的块。动作的组合给予了计算机不同寻常的能力。当然，人类必须教一种语言来利用这些能力，尽管不完全知道能力的确切程度。实际游戏按照课程进行，其中早期的级别只需要更简单的行动（有着更少的谓语）。

我们用这种方法描述SHRDLURN有着几个原因。第一，视觉块操作直观并且容易众包，而且它可以作为一个真正人们会玩的有趣的游戏。第二，行动空间被设计成组合，反映自然语言的结构。第三很多的行动z会导致相同的继承状态y=[|z|]_s,例如，在一些状态s中，“左边的堆栈”可能与“红色块的堆栈”一致，因此行动涉及其中任何一个都会导致同样的结果。因此人类只要指出正确的Y，计算机就必须应对这种间接监管（反映了真实语言学习）。

3.语义分析模型

追随Zettlemoyer和Collins以及最近语义分析的相关工作，我们使用了一个逻辑形式的对数线性模型（动作）z∈Z给定一个话语x：

ACL2016最佳论文：通过交互学习语言游戏

外延y（继承状态）是由状态s上扩展z获得的；正式来说，y=[|z|]_s

特征.我们的特征是在逻辑形式侧结合n-grams（包括skip-grams）和tree-gram。具体而言，在话语侧（如在橙色叠红色），我们使用一元（'stack '，∗，∗），二元（‘红'，'on'，∗），trigrams（‘红’，’on’，“橙色”），和skip-trigrams（'stack '，∗，'on'）。在逻辑形式上，特征对应于逻辑中的谓词形式和他们的论点。对于每个谓词h，让h.i是h的第i个论点。然后，我们为谓词h定义了tree-gram的特点ψ（h，d）和深度d = 0,1,2,3递归如下：

ACL2016最佳论文：通过交互学习语言游戏

所有功能集合都只是话语特征与逻辑形式特征的交叉产品。例如

ACL2016最佳论文：通过交互学习语言游戏

请注意，相比于大多数传统的语义分析工作，我们不模拟一个明确的对齐方式或导出连接话语成分和逻辑形式，而是遵循一个宽松的语义模型类似于（Pasupat和Liang）。因为派生的数量远远大于逻辑形式的数量，当我们从注释的逻辑形式或有一个种子词汇学习时，建模明确的路线或推导是唯一可行的计算。在ILLG设置中，没有一个是可用的。

生成/解析.我们使用光束搜索由最小到最大生成逻辑形式。具体而言，对于每个大小n = 1，.....8，我们可以根据表1中的语法规则，结合较小规模的逻辑形式构建一组大小为n的逻辑形式（有着确定的n谓词）。对于每一个n，我们都根据当前模型θ保持100逻辑形式z（有着最高的分数 θTφ（x, z））。让Z成为最后光束的逻辑形式的集合，它包含所有n大小的逻辑形式。

ACL2016最佳论文：通过交互学习语言游戏

表1：该形式语法为游戏SHRDLURN定义了组成动作空间Z。用c表示颜色，用s表示集合。例如，SHRDLURN中涉及的一个动作：‘add an orange block to all but the leftmsost brown block’add (not(leftmost(with brown))), orange)。除了最左边棕色块之外，将剩余的其他块设置为橙色。

在训练过程中，由于删减了中等尺寸的逻辑形式，并不能保证Z包含那些能够获得可观察到的状态y的逻辑形式。为了减少这种影响，我们列出一个图表，以便于在初级水平仅需要使用一些简单的动作，在转向更大的组合型动作之前，为人们提供机会交给计算机一些基本的属于，例如，颜色优先。

这一系统在最后的束搜索运算中运行所有的逻辑形式，并按照任一逻辑形式产生的最大概率将最终的指令结果y进行排序。

学习当人们以一种特定指令y的形式提供反馈信息，系统将生成一下损失函数：

ACL2016最佳论文：通过交互学习语言游戏

系统将运用AdaGrad优化算法进行单一梯度更新，(Duchi et al., 2010)，这种优化算法保持perfeature 步长。

4. 建模语用学

凭借在我们对第三部分描述的语义解析模型的经验，我们发现机器具备很好的学习能力，然而，缺少人类学习者的推理能力。为了更好地阐释这一观点，我们不妨考虑一下本款游戏的初级阶段，在这一阶段，在对数线性模型 p_θ（z|x）中，θ=0。假定，人类发出“删除红色”这一口令，并将 Z_rm-red=remove（with（red））视为正确的逻辑形式。计算机将运用损失函数进行梯度更新，特征(“删除”, 删除)与(“删除”，红色)。

其次，假定人们发出“删除青色”这一口令。注意，Zrm-red要比其他公式得分更高，由于（“删除”，红色）这一特征将再次被用到。尽管这一行为得到统计学方面的佐证，其并不能满足我们对一个聪明的语言学习者的本能期盼。此外，这一行为不能具体运用到我们的模型中，却能够运用到其他统计模型中，这些统计模型先前并未积累关于具体语言的额外知识，却尝试简单地符合所得出的数据结果。尽管我们不能期盼计算机能够神奇般地猜出“删除青色”为remove (with (cyan))，但其至少能够降低Z_rm-ed的概率，因为另外一项口令已经很好地且本能地解释了remove red。

Markman与Wachtel(1998)已经对这一相互排斥的现象进行了研究。他们发现，在语言习得过程中，孩子对某一物体的第二个标签持排斥态度，将其视为另一种全新的事物的标签。

语用计算机 为了正式建立相互排斥的模型，我们转向一些可能的语用模型(Golland et al., 2010; Frank & Goodman, 2012; Smith et al., 2013; Goodman & Lassiter, 2015)，这些语用模型将把这些思想应用到实际操作中。将语言视为发生在说话者（人）与听话者（计算机）之间的一场合作型游戏，在游戏过程中，听话者对说话者的话语策略建立一种清晰无误的模型，这一模型反过来又影响听话者的思路，这是这些模型的核心思想。在规范的计算机语言中，我们将定为说话S（z|x）者的话语策略，将定为L（z|x）听话者的话语策略。在交流过程中，说话者将字面语义解析模型及先前Pθ（z|x）发出的话语 p（x）一起考虑在内，听话者则考虑说话者S（z|x）及先前的话语p（z）：

ACL2016最佳论文：通过交互学习语言游戏

在上述公式中，为一个β≧1超参数，使正态分布结果更为均匀(Smith et al., 2013)。计算机将运用集合而L（z|x）非集合P_θ为游戏候选人排列等级。注意，我们运用的语用模型仅仅影响人类执行的动作等级排列结果，不会对模型的梯度更新产生影响。

ACL2016最佳论文：通过交互学习语言游戏

表2 假定计算机看到一个实例“删除红色”→Z_rm-ed，认为发出“删除青色”的指令。上方：字面听话者P_θZ_rm-ed错误地选择Zrm-ed而非Z_rm-cyan。中间：语用说话者S（x|z）基于Z_rm-cyan赋于“删除青色”更高的概率；下方：语用听话者L（z|x）正确赋于Z_rm-red以较低概率，其中p（z）是一致的。

我们仅用一个简单的例子来分析语用建模的作用。表2显示，当听话者仅领会到说话者的字面意思Pθ（zIx）时，他将赋予Z_rm-red高概率，以对指令“删除红色”，“删除青色”做出反应。假定具有统一的，语用p（x）与β=1，说话者S（x|z）将与的每P_θ一栏保持正常的一致性。注意，倘若语用说话者试图传达 Z_rm-cyan这一信息，他们极有可能会选择“删除青色”。其次，假定恒定不变，语用听话者L（z|x）将与P_θ.1的每一行保持正常的一致性。基于以上假设，将产生以下结果：在“删除青色”这一指令下，相比于，说Z_rm-red话者将更有可能选择传达Z_rm-cyan这一信息。而这一结果方是语用模型的理想效果。

语用听话者将说话设定为一个合作型的交流者，在交流过程中，尽可能实现成功的交流沟通。有一些说话者的行为，比如，避免使用同义词（例如，非“删除项”），运用统一的语序（例如，非“红色删除”），违反了游戏理论。对于那些不遵循话语策略的说话者，我们的语用模型是不适用的，然而，当我们在游戏中获得更多的数据，仅领会字面意思的说话者P_θ（z|x）的理解能力将不断增强，由此，字面听话者与语用听话者两者领会的话语含义将不谋而合。

ACL2016最佳论文：通过交互学习语言游戏

算法1 能够对语义解析参数θ 及总数C,Q 实施更新的在线学习算法要求计算机进行语用推理。

在算法1中，语用听话者L（z|x）可以被理解为优化的字面听话者PθB-的一种重要形式，其重要性受到函数Q（z）的削减，这一函数反映了字面听话者更偏重于选择领会哪一种话语含义。通过建立模型，算法1与(4)中提及的算法相同，除了这种算法在参照实例后，基于先前的参数θi使用正常化常数Q。根据(5)，我们也需要p（z），这一函数通过在总数C（z）添加-α，计算p（z）的估计值。注意，当当前例子所对应的模型参数得到更新后，Q（z）与C（z）才会得到更新。

最后，由于仅仅观察指令结果y，而非逻辑形式z，计算结果将呈现稍许复杂性。基于模型C（z）←C（z）+p_θ（z|x，||z||s=y），我们简单地为每一个恒定的逻辑形式{z|||z||s=y}指定一个伪代码。

与先前要求具体设置语用参照的工作相比，语用学自然而然地在ILLG中兴起。我们认为这种形式的语用学在是学习过程中是极为重要的，然而，当我们获取更多的数据后，其重要性将降低。的确，当我们获取大量的数据，zs的可能性减少时，将会产生以下函数L（z|x）≈p_θ（z|x）as∑_xp_θ（z|x）p（x）→p（z），此时β=1。然而，对于语义解析，倘若能够得到大量的数据，我们将不会采用此种方法。尤其值得注意的是，在游戏SHRDLURN中，我们远远无法运用这种计算方法，我们的大多数口头指令或逻辑形式都仅仅能够被看到一次，语用模型的重要性依然不会削减。

5 实验

5.1设置

数据使用亚马逊土耳其围棋机器人，我们付给100名工人每人3美元，要求他们玩SHRDLURN。从初始状态s开始，我们总计有10223条口头指令。当然，由于玩家可以不用执行任何动作，便可以操作任一指令，其中有8874条指令被标记为指令y,剩余为未被标记的。在相同的设置条件下，100名玩家完成了整个游戏。我们特意使每一位工人从零开始，以便于在相同的控制条件下，研究策略的多样性。

每一个游戏均由50项任务组成，其中以每10项任务为一组，总计划分为5个等级。基于开始状态，每个等级都将设定一个结局。每完成一个游戏，平均需要操作80个指令。运用亚马逊土耳其围棋机器人，完成这100个游戏一共需要6个小时。根据亚马逊土耳其围棋机器人的时间追踪器显示，每一个游戏将花费1个小时左右（这种计时方式并不适用于多任务玩家）。在游戏控制操作中，提供给这些玩家最少量的指导。重要的是，为了避免给他们的语言运用带来偏见，我们未提供实例指令。大约有20名玩家对游戏操作感到迷惑，给我们提供大量无用的指令反馈信息。幸运的是，大部分玩家能够理解如何进行设置，据其选择性评论显示，有些玩家甚至享受SHRDLURN带来的乐趣。

那是我在亚马逊土耳其围棋机器人游戏中玩的最有趣的经历了。

哇，这真是最棒的游戏啦！

指标我们用卷轴数量来衡量每一位玩家在游戏中的表现。在每一个实例中，卷轴数量是每一位玩家所执行动在Y轴上显示的位置。可以通过卷轴计数法来完成这一版本的SHRDLURN。100名玩家中有22名未能教会一种实际语言，而是通过获得卷轴数量来完成游戏。我们称其为垃圾玩家，他们通常输入单个字母，随意字词，数据或随机性的短语（如，“你好吗”）。总体而言，这些垃圾玩家得获得大量的卷轴数量：平均每一项指令得到21.6个卷轴，而对于那些非垃圾玩家，他们仅需要得到7.4个卷轴。

5.2 人工策略

有些实例口头指令可以在表3中找到。多数玩家使用英语，但是他们的语言习惯不同，例如使用定冠词，复数形式，专有名词顺序。有5名玩家发明了自己的语言，这些新发明的语言比普通英语更为精确，更具连贯性。一名玩家使用波兰语，另一名玩家使用波兰语表示法（表3下方）。

ACL2016最佳论文：通过交互学习语言游戏

表3：示例语句，括号内是每一个玩家所用的平均步骤。游戏的成功是通过步骤数来决定的，一般成功玩家所用的步骤数会更少。（1）排名前20的玩家更倾向于使用连续，简洁的语言，其语义与人类的逻辑语言十分的相似。（2）排名中等的玩家所使用的语言更加冗长或是不连续，这与人类的语言模式会稍有不同。（3）失败的原因各不相同。左边：；中间：使用坐标系统或是连词；右边：开始十分地不解，所使用的语言也与我们的逻辑语言相差甚远。

总的来说，我们发现玩家在使用连续，简洁且不重复的语言后会更加适应ILLG游戏，尽管在一开始是使用标准英语。举个例子，一些玩家会随着时间的推移语言会变得更加连续（例如，从使用“remove”和“discard”到只使用“remove”）。就冗长方面而言，省略虚词是游戏中常见的一种适应过程。在以下从不同玩家中选取的例子中，我们会把早期出现的句子和后期出现相似的句子进行比较：‘Remove the red ones’变成了‘Remove red’；‘add brown on top of red’变成了‘add orange on red’;‘add red blocks to all red blocks’变成了‘add red to red’；‘dark red’变成了‘red’；玩家曾在开始的前20句话中会使用‘the’，但是在后75句中从未出现过‘the’。

玩家在精确度方面也相差较大，有的是过分精确（例如，‘remove the orange cube at the left’，‘remove red blocks from top row’），有的是不够精确或是需要阅读前后文（例如，‘change colors’，‘add one blue’，‘Build more blocus’，‘Move the blocks fool’，‘Add two red cubes’）。我们发现随着时间的推移，玩家能更好地理解ILLG也会变得更加的精确。

大多数的玩家所使用的语言实际上并未与表1中的逻辑语言完全匹配，计算是表现较好的玩家也是如此。特别的是，数字会经常使用。尽管一些概念在积木世界中也通用，但是大多数是不一样的（例如，‘first block’的意思是‘leftmost’）。更加具体的说，在排名前10的玩家中，7名使用一些数字形式，仅有3名使用的语言与我们的逻辑语言完全匹配。有些玩家所使用的语言与人类的逻辑语言并不匹配，但是却表现地更好。其中之一的可能性解释就是所需的动作会受逻辑语言的制约或是所采取的行动会有意想不到的解释。例如只要玩家仅仅只提到最左或是最右，计算机能准确地解读数字位置的引用。所以如果玩家说‘rem blk pos 4’和‘rem blk pos 1’，计算机就能准确地解读出二元语法（‘pos’‘1’）为最左。另一方面玩家不采取行动或是坐标系统（例如，‘row two column two’），而仅仅是描述想要的状态（例如，‘red orange red’，‘246’）会表现地很差。尽管玩家不必使用与人类逻辑语言完全匹配的语言，但是部分相似肯定会有不小帮助。

组合性。据我们所知，所有的玩家都使用了同一种组合语言；没有人会使用与动作无关的语言。有趣的是，3个玩家并未在单词之间空格。因为我们认为单语素的单词都是通过空格分离的，所以必须进行多次滚动。（例如，14.15所说的‘orangeonorangerightmost’）

5.3 计算机策略

我们现在对计算机的学习速度做出了质量评估，并且我们的学习目标是仅看数据一眼就能实现较高的精确度。用于评估玩家的步骤数对于异常数据十分的敏感，但却并不是和对于准确度一样的直观。相反，我们会考虑在线准确性，如下所述。正式说来，如果玩家说出T话语x(j)，并且标记为y(j)，那么

ACL2016最佳论文：通过交互学习语言游戏

注意到在线准确性是与玩家所用的标记相关，如果玩家是所使用的语言是简洁，正确的，其标记又是与实际的准确度一一对应的。但对于大多数表现较差的玩家却又不适用。

ACL2016最佳论文：通过交互学习语言游戏

图2：语用学提高在线准确度。在上图中，每一种标记代表一类玩家。红色0：表示排名前20玩家在缩小滚动次数方面的表现；绿色x：排名20-50；蓝色+：排名低于50（包括表现极差的玩家）。标记的大小取决于玩家的排名，表现较好的玩家其标记更大。2a：在完整模式下有和没有语用学的情况下的在线精确度；2b：在半完整模式下的情况。

ACL2016最佳论文：通过交互学习语言游戏

表4：各种设置情况下的平均在线精度。存储：以完整表达和不具组合性的逻辑形式为特色；半完整模式：以一元，二元或是跳词的话语表达，但这些话语表达是以逻辑联系在一起的。完整模式：这一模式会在第3部分进行描述+prag: 上述模式使用第4部分描述的在线语义算法。组合性和语用学都会提高准确度。

组合性。为研究组合的重要性，我们会考虑两条基准线。首先会考虑非组合型模式（存储），仅存储几对完整表达的语句和逻辑模式。我们在特征（x，z）上使用特征使用指标特征，例如（‘remove all the red blocks’，zrm-red），此外还会使用较大的学习率。其次，我们会考虑使用一元，二元或是跳词等特征来处理语句的半完整模式，但是其逻辑模式是不具组合性的，所以我们会有以下的特征（‘remove’，zrm-red），（‘red’，zrm-red）等等。表4显示出完整模式（第3部分）表现明显优于存储和半基线模式。

语用学。接下来我们会研究语用学对在线准确度的影响。图2显示建模语用学对于使用简洁，连续语言的成功玩家（例如，在滚屏方面排前10的玩家）十分的有用。有趣的是，语用学建模对于使用不准确或是不连续语言的玩家没有帮助甚至是用害。这是预期的行为：语用建模会假设人类表现是合作并且理性的。对于排名较低的玩家而言，这一假设又是不成立的，因为在此情况下语用建模是没有帮助的。

6. 相关工作和讨论

我们的研究工作会与大量的“落地”语言的相关工作联系起来，因为一些情况下语言是为实现一些目标的一种方法而已。例子包括玩游戏，与机器人互动，和听从指令；我们利用语义学对话语进行逻辑分析，在这些设置中十分关键。

在语言游戏中（ILLG）使用新的交互式学习是我们研究的独特之处，在这一设置中模式必须从抓捕式学习转变为交互式学习。尽管会经常使用在线梯度下降，例如，在语义分析中，我们会在真实的在线设置中使用在线梯度下降，会在数据中进行略过并进行在线精度测量。

为提高学习速率，我们会利用语用学的计算模型。其主要区别在于，以前的研究都是基于训练过的基础模式使用语用学，但是我们会学习在线模式。Monore和Potts通过学习提高语用学模式。于此相反，我们通过捕捉像相互排斥的现象使用语用学来加速学习过程。我们与之前的研究在一些小细节方面也不相同。首先，我们在在线学习设置下进行语用学建模，此外还会对语用学模式进行在线更新。第二，参考游戏不太可能通过设计起至关重要的作用，shrdlurn并不是特地按照所需的语用学模式进行设计的。我们所实现的改进都是由于玩家试图使用一致的语言。最后，我们会把话语和逻辑模式都当做是组合性目标的特征。Smith等人会对话语（例如，单词）和逻辑形式（例如，目标）进行分类；Monroe和Potts会使用特征但同时也会覆盖平均种类。

在未来，我们相信ILLG设置会值得研究并且对于自然语言接口有重要的意义。今天，这些系统进行了一次培训和部署。如果在这项研究中，这些系统能迅速适应使用者的实时反馈，我们就有可能为资源贫乏的语言和新的领域创建更加稳定的系统，但这一系统是定制的且能通过使用提高性能。

哈尔滨工业大学李衍杰副教授的点评：这篇文章使用新的交互式学习方法来研究语言游戏问题，论文分析了人类的策略，发现使用语义合成性和避免同义词与任务性能呈正相关；比较了计算机策略，发现在语义分析模型基础上的建模语用学（pragmatics）能为更多策略玩家加速学习过程。与以往方法相比，本文主要不同点在于本文采用了新的交互式学习方法，通过交互模型能够从杂乱中学出语言。为提高学习速率，论文利用了语用学计算模型并能在线学习模型，通过捕捉相互排斥的现象使用语用学来加速学习过程。

PS : 本文由雷锋网独家编译，未经许可拒绝转载！更多ACL相关资讯扫码关注微信群

ACL2016最佳论文：通过交互学习语言游戏

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

2人收藏

章敏

章编辑

扫描关注作者微信

发私信

当月热门文章