您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给杨晓凡
发送

0

EMNLP2018上FB、谷歌继续并肩「刷榜」,瓜分最佳长论文和十分之一接受论文

本文作者:杨晓凡 2018-11-01 22:07
导语:好的数据挖掘点子给自然语言语料带来新的活力


EMNLP2018上FB、谷歌继续并肩「刷榜」,瓜分最佳长论文和十分之一接受论文

雷锋网 AI 科技评论按,自然语言处理顶会 EMNLP 2018 已经于 10 月 31 日开始了 Tutorial,正会将从 11 月 2 日开始。2017 年中,词嵌入(word-embedding)毫无疑问是最为火热的方法,以至于有人开玩笑说 EMNLP 的名称「自然语言处理实证方法(Empirical Methods in Natural Language Processing)」还不如解释为「自然语言处理嵌入方法(Embedding Methods in Natural Language Processing)」。 

不过学术界显然不会满足于词嵌入一种方法,2018 年发表的成果就多样化地在更有难度的任务的尝试、对已有方法的更深入的探讨、对新方向的探索中展现了计算语言学的更多可能。这股新风气在同为自然语言处理顶会的 ACL 2018 的参会见闻中也有详细说明。

作为有专门的人工智能学术性研究院、有大规模团队和高额科研预算的企业,Facebook 和谷歌一如既往地在 EMNLP 2018 上收获颇丰。Facebook 有 14 篇论文被 EMNLP 接受,谷歌则有多达 26 篇(有一篇是两者合作完成)。虽然目前 EMNLP 还没有正式宣布论文接受数目,但雷锋网 AI 科技评论预计这个数目大概会在四百多篇。这样一来,有接近 10% 的收录论文就直接被 Facebook 和谷歌「承包」了。而且,EMNLP 2018 的两篇最佳长论文也刚好一篇出自 Facebook,一篇出自谷歌

下面我们来详细看看这些研究成果。(文末提供这 39 篇论文的打包下载)

谷歌成果

(也许与谷歌的研究人员人数众多有关,)谷歌在这次 EMNLP 2018 中的参与程度非常高。不仅有多位谷歌研究员将会在 EMNLP 大会中发表演讲,涉及主题包括语言身份识别、分割、语义解析、问答系统,还有许多人员参与到了会议各个级别的组织工作中。

借着论文被接受,谷歌也隆重推出了四个用于 NLP 任务的数据集。与现有的学术数据集在较理想的环境下进行评估不同,这四个新的数据集更关注的是实际部署的 NLP 系统会遇到的不那么规范的用户输入,都包含了真实的、自然人类交流中会出现的文本。同时这四个数据集也可以两类,一类是对目前已经过较多研究的核心 NLP 任务提出更高的挑战,另一类则是在对语句重构/编辑并保持语义不变的条件下鼓励探索新的研究方向。这些数据集的收集方式也非常有趣,让人不得不感慨这个时代真是数据无处不在、无所不能。

数据集列表

Noun-Verb Ambiguity in POS Tagging Dataset,部分对话标注中的非动词单词歧义性数据集。出自论文《A Challenge Set and Methods for Noun-Verb Ambiguity》。这个数据集研究了非动词单词歧义性引起的部分对话标注中的错误。数据集中包含了 3 万个经过标注的人类语言中自然出现的非平凡的非动词单词歧义的例子。不同的部分对话标注方法的准确率在这个数据集上分布在 57% 到 75% 之间。

Query Wellformedness Dataset,问题完备性数据集。出自论文《Identifying Well-formed Natural Language Questions》。这个数据集研究了搜索引擎中通常由关键词简单串联起来形成的用户输入与自然语言表述的完整句子构成的问答之间的关系。在实际应用中,区分关键词组成的搜索词组与自然语言问句也有很大的应用价值。这个数据集中包含了 2.5 万个标注问句,并且带有评分,评价这些问句与形式完备的自然语言问句之间的接近程度。

WikiSplit 数据集,分割与重新组织语句的语料。出自论文《Learning To Split and Rephrase From Wikipedia Edit History》。这个数据集是从维基百科的编辑记录中抽取样本,专门关注了从一个长句拆分成两个独立的短句,同时这两个短句合起来表示的意思和原来的长句相同的样本。这个数据集包含了一百万个句子拆分样本,词汇量超过为六十万词。

WikiAtomicEdits 数据集,来自原子性的维基百科编辑记录的多语言对照语料。出自论文《WikiAtomicEdits: A Multilingual Corpus of Wikipedia Edits for Modeling Language and Discourse》。研究人们编辑维基百科时的语言运用方式可以用来理解语言自己的结构。在这项研究中,谷歌的研究人员们专门关注了两种原子编辑操作:对一段连续的文本的一次性插入或者删除操作。他们从编辑记录中提取出了涵盖 8 中语言的共四千三百万次这样的编辑操作,并表明了这些操作对于语言的蕴含和论述提供了有价值的信息。

论文列表

A Challenge Set and Methods for Noun-Verb Ambiguity

A Fast, Compact, Accurate Model for Language Identification of Codemixed Text

AirDialogue: An Environment for Goal-Oriented Dialogue Research

Content Explorer: Recommending Novel Entities for a Document Writer

Deep Relevance Ranking using Enhanced Document-Query Interactions

HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

Identifying Well-formed Natural Language Questions

Learning To Split and Rephrase From Wikipedia Edit History

Linguistically-Informed Self-Attention for Semantic Role Labeling

Open Domain Question Answering Using Early Fusion of Knowledge Bases and Text

Noise Contrastive Estimation for Conditional Models: Consistency and Statistical Efficiency

Part-of-Speech Tagging for Code-Switched, Transliterated Texts without Explicit Language Identification

Phrase-Indexed Question Answering: A New Challenge for Scalable Document Comprehension

Policy Shaping and Generalized Update Equations for Semantic Parsing from Denotations

Revisiting Character-Based Neural Machine Translation with Capacity and Compression

Self-governing neural networks for on-device short text classification

Semi-Supervised Sequence Modeling with Cross-View Training

State-of-the-art Chinese Word Segmentation with Bi-LSTMs

Subgoal Discovery for Hierarchical Dialogue Policy Learning

SwitchOut: an Efficient Data Augmentation Algorithm for Neural Machine Translation

The Importance of Generation Order in Language Modeling

Training Deeper Neural Machine Translation Models with Transparent Attention

Understanding Back-Translation at Scale

Unsupervised Natural Language Generation with Denoising Autoencoders

WikiAtomicEdits: A Multilingual Corpus of Wikipedia Edits for Modeling Language and Discourse

WikiConv: A Corpus of the Complete Conversational History of a Large Online Collaborative Community

Facebook

与谷歌类似,Facebook 也在开发新的数据集上花了不少功夫。他们这次在 EMNLP 2018 上带来的数据集是 XNLI,它可以用于自然语言处理中的跨语言处理方法。这个数据集在目前广泛使用的 MultiNLI 多风格自然语言推理语料库基础上增加了 14 种新的语言,其中包括了两种稀缺语料资源的语言斯瓦希里语与乌尔都语。

论文列表

A Dataset for Telling the Stories of Social Media Videos

Auto-Encoding Dictionary Definitions into Consistent Word Embeddings

Do explanations make VQA models more predictable to a human?

Dynamic Meta-Embeddings for Improved Sentence Representations

Extending Neural Generative Conversational Model using External Knowledge Sources

How agents see things: On visual representations in an emergent language game

Loss in Translation: Learning Bilingual Word Mapping with a Retrieval Criterion

Neural Compositional Denotational Semantics for Question Answering

Non-Adversarial Unsupervised Word Translation

Phrase-Based & Neural Unsupervised Machine Translation

Semantic Parsing for Task Oriented Dialog using Hierarchical Representations

Training Millions of Personalized Dialogue Agents

Understanding Back-Translation at Scale

XNLI: Evaluating Cross-lingual Sentence Representations

论文打包下载请访问 http://ai.yanxishe.com/page/resourceDetail/622。更多 EMNLP 2018 报道,请继续关注雷锋网 AI 科技评论。

雷峰网原创文章,未经授权禁止转载。详情见转载须知

EMNLP2018上FB、谷歌继续并肩「刷榜」,瓜分最佳长论文和十分之一接受论文

分享:
相关文章

读论文为生

日常笑点滴,学术死脑筋
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说