「顶会见闻系列」之 EMNLP 2018 详细参会见闻（上篇）

本文作者：丛末

编辑：杨晓凡

2018-11-08 11:56

导语：这是一篇万字长「顶会见闻系列」~

雷锋网 AI 科技评论按：本篇属于「顶会见闻系列」。每年这么多精彩的人工智能/机器学习会议，没去现场的自然可惜，在现场的也容易看花眼。那么事后看看别的研究员的见闻总结，也许会有新的收获呢。

Patrick Lewis 是 UCL 的自然语言处理博士生，同时他也参与 Facebook 人工智能研究院的研究。Patrick Lewis 对人类应当如何设计自然语言处理系统、如何更高效地编码并利用语言背后的有用的知识非常感兴趣。Patrick Lewis 现场参加了 EMNLP 2018，并在个人博客写下了他的参会见闻。雷锋网 AI 科技评论编译如下。（有删节）

「顶会见闻系列」之 EMNLP 2018 详细参会见闻（上篇）

我刚刚从布鲁塞尔参加 EMNLP 回来。我们在 EMNLP 上展示了我们的 ShARC 数据集的论文。这次会议的规模和广泛程度真是令人惊叹，有如此之多的聪明人，在做各种令人惊喜的事情。能遇到自然语言处理界的这么多学者，和他们聊天、建立联系也很开心。

下面我尝试把自己的一些体会总结成一篇文章。有趣的东西太多了，我都已经开始有点忘了。我听了超过 60 场论文演讲，看了好多好多论文海报，但是相比整个论文的 549 篇接受论文来说也仅仅只是很小的一部分而已。我先说一说我看到的一些高层次的趋势，然后一块一块地详细说说每一天遇到的值得关注的东西。

总结

我觉得今年的 EMNLP 有好几个有广泛外延的趋势值得注意。尝试更难的任务，广泛地对模型、数据集以及任务进行批判性分析，整个领域内有很多注意力都花在了这些事情上。这其中有件好事，就是耸人听闻的报道少了，没有什么突出的新想法、仅仅一味拼凑新架构的论文也少了。

有一个方面有喜人的增长，我把它称作「负有社会责任的自然语言处理」，它包括的内容从调查学术研究社区内的偏倚一直到流传的说法的验证和假新闻辟谣。我觉得 FEVER Workshop 尤其地成功，而且我会鼓励更多的人参与进来。

我们也看到对抗性方法在 NLP 领域得到越来越多人的关注，从老式的 GAN、到辨别网络、自然语言的对抗样本生成的各方面都有持续的增长。这些研究的体量相对来说还是比较小的，不过我觉得明年的时候我们就会看到遍地都是对抗性方法了。

我们也看到了上下文相关的文本嵌入得到了广泛的应用，尤其是 ELMo。AI2 做了很好的宣传活动，给参会者们送 ELMo 的贴纸和毛茸茸的 elmo 小怪兽玩具。有不少的研究都把 ELMo 作为输入的对比组，而且也确实在很多不同的应用中取得了可以说是全方位的提升。

会议中还出现了好多好多新数据集。基本都是针对越来越细粒度的任务（包括我们自己的 ShARC），也有很多专门在强调难度。「难度筛选器」的概念一下子就变得特别火（对抗性筛选以及其它相关的技巧），就是为了保证数据集没法用现有的方法轻松解决。理论上来说这是一件好事，不过我有点担心，如果我们的处理的过程不小心的话可能会让数据集带有微妙的、基于模型的偏倚。和上面这些相关的是，有好几项研究都以现有的数据集为研究对象，进行近距离的、批判性的分析，试图弄清如果要在这些任务中取得好成绩的话到底需要什么类型的模型；问答任务上的这样的研究尤其多。

我们也看到了常识和单词知识方面的研究热情一直在持续，有一些新的进展，但是我们仍然有很长的路要走。

其它值得一提的还有：重新在语言建模中引入句法和语言学结构，这个方向的研究还在不断成长；大家都更看重模型的可解释性；以及，结构化地限制模型的输出（配合结构化的预测，ILP 等等）。

如果你也到会议现场看了，你也能在这里写下更多东西，而且你看到的趋势可能也会和我的不一样。毕竟这个会议已经很大了，同一时刻有 5 个会场都在进行。

下面我一个一个 session 地说下一我自己觉得尤其有趣或者值得讨论的研究。

FEVER Workshop

这次的 FEVER Workshop 很棒，如果它聚集的热度能保持下去并继续增长就更好了，组织者的工作也做得很好。FEVER 是指论述提取与验证（Fact Extraction and VERification），典型的应用比如热点新闻鉴别真假并辟谣，在近年来全社会都有热烈的 AI 热潮的环境下更有很高的价值。

Tim Rocktaschel：特邀讲者

Tim 讲述了他在 NTP（网络时间协议）、ShARC（超级哈佛架构）以及其他项目中的工作。我熟悉 Tim 的相关工作，所以没有详细做笔记。听众提出了一个非常有洞察力的问题，问 NTP 捕捉的到底是关联性还是语义的相似性，这个问题提到规则归纳无法与关联性相互配合。

《Towards Automated Factchecking: Developing an Annotation Schema and Benchmark for Consistent Automated Claim Detection》

《面向自动事实核查：为一致的自动陈述检测开发一个标注方式和 Benchmark》

作者：Lev Konstantinovskiy, Oliver Price, Mevan Babakar，Arkaitz Zubiaga

Lev 在一家打击虚假信息的慈善机构 FullFact 工作。FullFact 对事实核查的工作流程规如下：

更自动化的监控
更自动化地发现需要核查的陈述
核查陈述
公布
干预

这个项目涉及面向自动陈述检测方面的工作，首先会为 7 种类别建立一个数据集：

非陈述
数量
预测
个人体验
相关/因果关系
操作法律/规则

他们使用来自 ExplosionAI 公司的出色的「prodigy」软件来实现自动化。不幸的是，它的不同标注员之间的一致程度不是很好，不过在定义二进制分类任务时要好得多。数据集由 5571 个句子组成，其中 1570 个句子表示陈述的意思。该模型让系统得到分别为 0.88 、0.80、0.83 的准确率、召回率以及 F 值。

《Shared Task Flash Talks - The Fact Extraction and VERification (FEVER) Shared Task》

《共享任务 Flash Talks—事实提取和验证（FEVER）共享任务》

这个 FEVER 任务有 87 次提交，23 个团队，并让 f1 值从 0.18 提高到 0.53。

大多数团队通常使用三步流水线来完成任务：

文件选择：网元、网络处理器、大小写转换、页面查看、搜索 API
句子选择：几种不同的方法
采用监督训练来分类

《Combining Fact Extraction and Claim Verification in an NLI Model》

《自然语言推断模型中的事实提取与陈述验证相结合》

作者：Yixin Nie, Haonan Chen，Mohit Bansal

作者对这三个步骤的每一步骤都使用了 NSMN 方法，并首次将其运用到任务中。

《UCL Machine Reading Group: Four Factor Framework For Fact Finding (HexaF)》

《UCL 机器阅读组：事实发现的四因素框架（HexaF）》

作者：Takuma Yoneda, Jeff Mitchell, Johannes Welbl, Pontus Stenetorp，Sebastian Riedel

该论文使用了一种流程化的方法：先是文献检索，随后是句子检索，接着是自然语言推断，最后是标签聚合。他们提到大写以及证据是否接近文章的开头是非常重要的特征，并且通过将文章标题添加到句子的自然语言推断模型中，来使用实体共同参照物。

《Multi-Sentence Textual Entailment for Claim Verification》

《用于陈述验证的多语句文本蕴涵》

作者：Andreas Hanselowski, Hao Zhang, Zile Li, Daniil Sorokin, Benjamin Schiller, Claudia Schulz，Iryna Gurevych

这篇论文同样发现，对文档中的实体进行实体链接，从而为附加的证据找到维基百科文章是有用的。

《Team Papelo: Transformer Networks at FEVER 》

《Papelo 团队：FEVER 的变换网络》

作者： Christopher Malon

这个团队在自然语言推断这一步骤中使用了 GPT 变换，并且相比其他的团队，他们提交的成果在准确率/召回率两者间的权衡有明显的不同。

《The Data Challenge in Misinformation Detection: Source Reputation vs. Content Veracity》

《错误信息检测中的数据挑战：源信誉与内容真实性》

作者：Fatemeh Torabi Asr，Maite Taboada.

Fatimeh 通过视频通话进行展示。他们通过验证是否可能使用发布者的信誉来训练系统，从而检测内容的真假，进而构建系统。总体而言，这一基于信誉的数据是有用的，不过相关分析表明其中存在一些问题，这是因为来自大的新闻源的文章很多都被标记为讽刺，而小的新闻源的数很多则有很多被标记为骗局。这个论述处理实验室有一个有意思的网站：https://fakenews.ngrok.io/

特邀报告：《Call for Help: Putting Computation in Computational Fact Checking 》

《求助：在计算机的事实检查中引入算法》

讲者：Delip Rao

Delip 热情洋溢地讲述了现在对于处理假新闻的需求以及我们作为帮助解决这些问题的实践者该怎样承担责任。他针对部分不同的假新闻，详细展示了解决方案：

政治新闻
调查报道新闻
教育新闻
科技（人工智能，用户体验以及其他）新闻
研究新闻

他还指出了假新闻的不同「策划者」和「传播者」：

策划者：名人，犯罪分子/恐怖分子，活动家，政府
传播者：机器程序，「有用的白痴」、阴谋论者、记者

来自谢菲尔德大学 James Thorne 的宣告

James 介绍了 FEVER 2 的规划，它将遵循 Ettinger 等人的方法论——「构建它、打破它、修复它」：

1.构建它：
用现有的模型和现有的 FEVER 数据构建基线模型；
为模型开发 API。
2.打破它：
将邀请对抗的一方，他们要生成新的数据攻破基准线系统。基准线系统要通过 API 进行在线测试。攻击者要提交 1000 个最佳的样本用于比赛。根据攻击者能够攻破的系统的数量为他们评分。
3.修复它：
将公开发布一半的攻击者数据用来训练新的模型，另一半保留用来测试。

这个规划真的很好，我非常开心能在这里看到 FEVER 2 的进程正在向前推进。

Black box NLP（黑盒自然语言处理）

《Context-Free Transductions with Neural Stacks》

《用神经堆栈实现上下文无关变换》

作者：Yiding Hao, William Merrill, Dana Angluin, Robert Frank, Noah Amsel, Andrew Benz，Simon Mendelsohn

作者们调查了神经堆栈增强的神经网络（ NN）是否真的使用堆栈数据架构。他们定义了下面几个不同的任务：

反向字符串——作者们发现，LSTM 控制器没有充分利用堆栈，而是将它用作非结构化存储器。
平衡括号语言建模，这是一个简单的任务，简简单单的网络就能做得很好，但 LSTM 控制器网络可以做得更好。堆栈会被用作非结构化存储器，而非用作堆栈。
奇偶性评估——在每个时间步长计算一个二进制字符串的位奇偶，相当于用新的位来取前奇偶的异或。缓冲架构可以很好地解决这个问题，但是没有缓冲的架构无法实现（随机猜测）。

他们认为，堆栈递归神经网络（RNN）学到了直观和可解释的解决方案来简化算法任务，但通常使用堆栈的方式并不合理。让控制器网络正确地使用堆栈，可能需要给模型增加更多的归纳偏倚。

CoNLL——第二天下午

《Comparing Models of Associative Meaning: An Empirical Investigation of Reference in Simple Language Games 》

《比较不同的关联意义模型：对简单语言游戏中的指代的实证探究》

作者：Judy Hanwen Shen, Matthias Hofer, Bjarke Felbo，Roger Levy

作者们研究了桌游「行动代号」（CodeNames）的简化版本。一个玩家需要从三个单词中选择一个，让另一个玩家再从三个其他单词组成的列表中「也选出一个不是同类的单词」。他们很想发现人类用什么语义资源来构建词汇联想，并调查了 5 种资源：

名词，形容词二元语法联想
Conceptnet5 相似性
词向量余弦距离
LDA 主题建模——这里使用的是词的主题分布之间的欧式距离

他们发现，二元语法系统能最好地预测人类玩家（尤其是 2 号玩家）怎样玩游戏，这表明了「直接的共现分析在联想设置中特别重要」。他们还提到，1 号玩家和 2 号玩家的策略存在差异，这就意味着每个玩家所利用的信息是不同的。

《Sequence Classification with Human Attention》(special paper award)

《利用人类注意力的序列分类》（特别论文奖）

作者：Maria Barrett, Joachim Bingel, Nora Hollenstein, Marek Rei，Anders Søgaard

这篇论文获得了心理语言学特别奖，真的很棒！作者们试图通过利用眼动追踪测量的结果，来推动序列分类中的神经注意力更像人类一样工作。他们不直接监控注意力信号，而是通过利用眼动追踪软件所测量得到的注视时间，来将人类阅读新闻文章的注意力作为模型学习的监督信号。这项工作真的很酷，是少数直接使用了人类在做本能工作时所发出信号的工作之一。

他们测试了其情感分类、语法检测和仇恨语言检测的系统，发现使用来自 ZUCO 和 Dundee 语料库的「平均持续固定时间」注视法，能将 F1 的分数提高 0.5%～2%。

Keynote I：《「Truth or Lie? Spoken Indicators of Deception in Speech」》

《「真相还是谎言？口头欺骗的语音指示器」》

讲者：Julia Hirschberg（哥伦比亚大学）

作为会议的第一位主题报告演讲者，Julia 详述了欺骗检测的优化方法，并描述了建立一个包含人类所讲的真话和谎言的干净数据集的过程。然后把人类说真话或者说谎话的录音给别的人类或者给机器学习算法听，讨论的内容也经常是关于敏感话题的。

机器学习系统比人类更善于发现谎言，不过机器和人类倾向于犯不同的错误。他们发现，男性能更好地发现别人说谎，而最善于发现谎言的人，则是那些在开放和一致的人格测试中得分很高的人。

有趣的是，在机器学习模型检测谎言的时候，说谎者的人格类型是一个重要的特征。他们还发现，重复叙述以及音高和「停顿间隔」，同样都是重要的因素。

在下一步工作中，他们计划通过将谎言游戏众包，来获取更多的人类评价，从而更好地理解人类欺骗检测。我想说的是：在这里，压力和语境是超级重要的。当一个人感到紧张、疲倦或烦恼时，他们说谎的方式可能会有很大的不同吗？我们这里同时也存在领域迁移的问题。

EMNLP Session 1

《Reasoning about Actions and State Changes by Injecting Commonsense Knowledge》

《通过增加常识知识来推理动作和状态变化》

作者：Niket Tandon, Bhavana Dalvi, Joel Grus, Wen-tau Yih, Antoine Bosselut，Peter Clark

作者们在论文中提出了 ProPara 数据集。这个数据集的目标是预测一段程序性的自然语言进行过程中的动作和状态变化。这个任务和 BABI 中的某个任务感觉很相似，只不过这次是真的体现成了自然语言的形式；近期发布的 RecipeQA 也是自然语言形式的，不过有更丰富的单词量和更多样化的主题。

这个任务本身是这样的：给模型提供一组句子和一组句子中的实体，模型必须阅读每个句子，然后预测每一个实体的状态是否发生了变化。他们考虑了这些动作：消耗、生产、发生了哪些转换以及发生了哪些运动。有意思的是，他们发现贪婪解码方法可能会带来毫无意义的预测。

比如，如果一个实体已经被摧毁了，那么它就不能继续发生任何后续的变化。作者们的做法是使用了结构化预测。而且这个系统还需要一定的人类常识才能得到比较好的效果。他们发现现有的实体追踪系统，比如循环实体网络（recurrent entity network）在这里的表现并不怎么好；作者们的系统要比循环实体网络提高了 13 分的 F1 分数，在有隐式指代、联合指代和知识检索时最容易出现错误。

《Collecting Diverse Natural Language Inference Problems for Sentence Representation Evaluation》

《为句子表征评价收集多样化的自然语言推理问题》

作者： Adam Poliak, Aparajita Haldar, Rachel Rudinger, J. Edward Hu, Ellie Pavlick, Aaron Steven White，Benjamin Van Durme

这篇论文收集了 13 个现有的不同类型的 NLI（自然语言推理）数据集中多种多样的语义现象，组成了 DNC（Diverse Natural Language Inference collection，多样化自然语言推理集合）数据集，地址见 https://www.decomp.io/。DNC 很大、多样化，涵盖了原型-角色转化、真实性、生成性、常识推理、词义推理等等许多方面的内容，总计有超过 50 万个样本。在建模的过程中，论文作者们发现如果想要在双关语和情感方面取得好的成绩的话，需要先在 MNLI 数据集上做预训练（其后的精细调节是必要的），以及即便他们没法证明这个假说，也仍然取得了很好的 NER 成绩。

《Textual Analogy Parsing: What's Shared and What's Compared among Analogous Facts》

《文本模拟解析：在模拟陈述中都有什么是一样的、做了哪些对比》

作者： Matthew Lamm, Arun Chaganty, Christopher D. Manning, Dan Jurafsky，Percy Liang

受到总结性语言的自动化视觉效果的设定启发，这项研究中作者们提出了一个新的任务，叫做文本模拟解析（Textual Analogy Parsing）。这项任务需要对陈述进行分解，然后计算不同陈述之间的高阶联系。论文中为这项任务引入了一个新的数据集，并提出了一个新的模型，它通过 ILP 的使用来确保分解出的模拟段落符合这个任务设置带来的限制。又是一篇需要对神经网络的输出进行限制，让它符合逻辑要求的论文。这个模型首先会识别不同的实体、它们的语义类型以及数量，然后模型会建立模拟段落，并用这个模拟段落填充一个模拟框架。模型的评估在有标注的顶点-边-顶点三元组上得到准确率、召回率、F1 分数。

《SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference. Rowan Zellers》

《SWAG：一个用于给定信息的常识推理的大规模对抗性数据集》

作者： Yonatan Bisk, Roy Schwartz，Yejin Choi

SWAG 是一个有预谋地设计得非常难的新数据集，它的创建过程使用了对抗性筛选（adversarial filtering）方法。这个任务是，给出一个初始设定问题后，要求模型从 4 个后续的句子中正确地挑出一个句子来，挑出的这个句子要能够看作是对一段自然语言的看上去最自然的、最符合常识的续写。数据集中故意设置了很难分辨的错误选项。这篇论文的创作动机来自于，作者们观察到大多数自然语言推理任务只要求模型有语言学知识，但其实自然语言推理任务本身就应当是一种（有条件的）常识推理任务。这个任务也就和完形填空有很强的关联。对抗性筛选作为一个数据集创建的特点，我们现在也已经见到了好几次了。这个数据集很大，有 11 万个样本，已经超过了我们认为可以算作「大 NLP 数据集」的 10 万样本及格线了。

这个数据集的构造方式很有趣：

连续的两个句子采样自 ActivityNet 比赛数据集里的视频的基于音频的字幕
把其中的第二个句子看作是黄金答案
他们给一个语言模型输入第一个句子，以及第二个句子的开头几个词（第一个名词短语）。然后用语言模型生成很多不同的句子，这些句子也就是候选的错误答案
把这些句子都投入到一个对抗性筛选过程中去（详细介绍请见原论文）
随机分成训练集和测试集，找一个模型来训练
对于测试集中的样本，找到里面的「很容易就能答对的样本」，然后把它们换成比较难答对的
反复重复这个过程，直到收敛
最后，候选的错误答案由人类进行标注，确保它们确实是错误答案

（上篇完）

这是「顶会见闻系列」之 EMNLP 2018 的上篇，大家可移步《「顶会见闻系列」之 EMNLP 2018 详细参会见闻（下篇）》阅读后续精彩内容。

via：https://www.patricklewis.io/post/emnlp2018/，雷锋网 AI 科技评论编译雷锋网

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

1人收藏

丛末

编辑

发私信

当月热门文章