一窥 ACL 2018 最佳论文

本文作者：杨晓凡

2018-06-10 18:49

专题：ACL 2018

导语：更多后续报道敬请期待

一窥 ACL 2018 最佳论文

雷锋网 AI 科技评论按：随着定于 7 月 15 日的开会日期逐渐临近，自然语言处理顶会 ACL 2018 继公开了接收论文名单之后，今天也公布了包含 3 篇长论文与 2 篇短论文的最佳论文获奖名单。

其实 ACL 2018 的流程设计与去年有所不同。ACL 2017 会前首先公布了 22 篇 outstanding 论文（可以看作最佳论文的预选论文），其中长论文 15 篇、短论文 7 篇；接着正会开始后这 22 篇论文分在四个不同的论文报告 session 中演讲，然后在最后一天的颁奖典礼上公布了最终的最佳论文奖得主。当时在 ACL 2017 做现场报道的我们雷锋网记者岑大师听了论文报告之后就对最佳论文得主做了自己的预测，果然猜中。（可惜今年就没有必要猜啦）

一窥 ACL 2018 最佳论文

说回 ACL 2018，ACL 2018 组委会于 6 月 10 日直接在官网发出公告，公布了今年 5 篇最佳论文的评选结果。不过截止 6 月 10 日只有其中 2 篇论文的内容是公开的，另外 3 篇论文的介绍请等待雷锋网 AI 科技评论后续报道。

- 6 月 13 日更新了两篇内容，目前仍有一篇未公开

最佳论文 - 长论文（3 篇）

Finding syntax in human encephalography with beam search

用束搜索在人脑成像中寻找句法
论文摘要：循环神经网络文法（RNNGs）是对于「树-字符串」对的生成式模型，它们依靠神经网络来评价派生的选择。用束搜索对它们进行解析可以得到各种不同复杂度的评价指标，比如单词惊异数（word surprisal count）和解析器动作数（parser action count）。当把它们用作回归因子，解析人类大脑成像图像中对于自然语言文本的电生理学响应时，它们可以带来两个增幅效果：一个早期的峰值以及一个类似 P600 的稍迟的峰值。相比之下，一个不具有句法结构的神经语言模型无法达到任何可靠的增幅效果。通过对不同模型的对比，早期峰值的出现可以归功于 RNNG 中的句法组合。结果中体现出的这种模式表明 RNNG+束搜索的组合可以作为正常人类语言处理中的语法处理的一个不错的机理解释模型。
论文地址：https://arxiv.org/abs/1806.04127
论文四位作者中的三位来自 DeepMind，另一位来自密歇根大学文学、科学与艺术学院计算神经语言学实验室

Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information

学习如何问好的问题：通过完全信息下的期待值为追问问题排序
论文摘要：在沟通中，提问是一大基本要素：如果机器不知道如何问问题，那它们也就无法高效地与人类合作。在这项研究中，作者们构建了一个神经网络用于给追问的问题做排名。作者们模型设计的启发来源于完全信息情况下的期待值：一个可以期待获得有用的答案的问题就是一个好问题。作者们根据 StackExchange 上抓取的数据研究了这个问题；StackExchange 是一个内容丰富的在线咨询平台，其中有人发帖咨询以后，别的用户会在下面追问起到解释澄清作用的问题，以便更好地了解状况、帮助到发帖人。论文作者们创建了一个由这样的追问问题组成的数据集，其中包含了 StackExchange 上 askubuntu、unix、superuser 这三个领域的约 77k 组发帖+追问问题+问题的回答。作者们在其中的 500 组样本上评估了自己的模型，相比其他基准模型有显著的提高；同时他们也与人类专家的判断进行了对比。
论文地址：https://arxiv.org/abs/1805.04655
论文作者来自马里兰大学与微软研究院

Let's do it "again": A First Computational Approach to Detecting Adverbial Presupposition Triggers

让我们「再」做一次：首个检测假定状态触发副词的计算性方法
论文摘要：这篇论文中，作者们介绍了一种新的研究课题——预测副词词性的假定状态触发语（adverbial presupposition triggers），比如「also」和「again」。完成这样的任务需要在对话上下文里寻找重复出现的或者相似的内容；这项任务的研究成果则可以在文本总结或者对话系统这样的自然语言生成任务中起到帮助。作者们为这项任务创造了两个新的数据集，分别由 Penn Treebank 和 AnnotatedEnglish Gigaword 生成，而且也专为这项任务设计了一种新的注意力机制。作者们设计的注意力机制无需额外的可训练网络参数就可以增强基准 RNN 模型的表现，这最小化了这一注意力机制带来的额外计算开销。作者们在文中表明，他们的模型相比多个基准模型都有统计显著的更高表现，其中包括基于 LSTM 的语言模型。
论文地址：https://www.cs.mcgill.ca/~jkabba/acl2018paper.pdf
这篇论文来自加拿大麦克吉尔大学（McGill University）与蒙特利尔算法学习人工智能实验室（MILA）

最佳论文 - 短论文（2 篇）

Know What You Don't Know: Unanswerable Questions for SQuAD

知道你不知道的：SQuAD 中无法回答的问题
论文摘要：提取式的阅读理解系统一般都能够在给定的文档内容中找到正确的内容来回答问题。不过对于正确答案没有明示在阅读文本中的问题，它们就经常会做出不可靠的猜测。目前现有的阅读理解问答数据集，要么只关注了可回答的问题，要么使用自动生成的无法回答的问题，很容易识别出来。为了改善这些问题，作者们提出了 SQuAD 2.0 数据集，这是斯坦福问答数据集 SQuAD 的最新版本。SQuAD 2.0 在现有的十万个问题-答案对的基础上增加了超过五万个无法回答的问题，它们由人类众包者对抗性地生成，看起来很像可以回答的问题。一个问答系统如果想要在 SQuAD 2.0 上获得好的表现，它不仅需要在问题能够回答时给出正确的答案，还要在给定的阅读材料中不包含答案时做出决定、拒绝回答这个问题。SQuAD 2.0 也设立了新的人类表现基准线，EM 86.831，F1 89.452。对于现有模型来说 SQuAD 2.0 是一个具有挑战性的自然语言理解任务，一个强有力的基于神经网络的系统可以在 SQuAD 1.1 上得到 86% 的 F1 分数，但在 SQuAD 2.0 上只能得到 66%。
论文地址：https://arxiv.org/abs/1806.03822
这篇论文来自斯坦福自然语言小组（Stanford NLP Group），作者之一的副教授 Percy Liang 是 NLP 领域著名的研究员，我们也曾报道过他的论文《先打草稿可以生成更高质量的文本，Percy Liang新论文广受赞誉》

'Lighter' Can Still Be Dark: Modeling Comparative Color Descriptions