2018 年度 ML、NLP 会议论文大盘点：周明、张潼、孙茂松数据亮眼

本文作者：丛末

2019-01-13 00:13

导语：统计数据覆盖 ACL、EMNLP、COLING、TACL、NeurIPS、ICML、ICLR、 AAAI 等 12 个会议/期刊。

雷锋网 AI 科技评论按：随着 2018 年的结束，剑桥大学高级研究员 Marek Rei 再度更新了过去一年机器学习和自然语言处理领域的论文发表统计数据，本次，他选择了ACL、EMNLP、NAACL、EACL、COLING、TACL、CL、CoNLL、NeurIPS、ICML、ICLR 以及 AAAI 12 个主要的会议/期刊进行数据统计，从会议、作者、第一作者以及组织机构四个维度进行了论文发表数量的排名。雷锋网 AI 科技评论编译如下。

今年，又到了更新过去一年机器学习和自然语言处理领域的论文发表统计数据的时候了。这两个领域依旧在快速发展，无论是发表论文数量还是参会人员数量都打破了往年的记录。今年学术会议界最轰动的事件莫过于「NeurIPS 大会正会门票 11 分钟售罄」了。在本文中，我将针对这些数据提供详细的统计，显示在特定会议上作者或者组织机构所发表论文的数量。

2018 年，我统计了以下会议/期刊的数据：ACL、EMNLP、NAACL、EACL、COLING、TACL、CL、CoNLL、NeurIPS、ICML、ICLR 以及 AAAI。这种选择是为了覆盖机器学习和语言技术领域论文发表的最知名和高排名的会议。与去年相比，我去掉了 SemEval，因为它主要关注共享任务相关的论文，而我在其它会议中也没有统计该领域的论文发表数据。同时，我添加上了作为顶级会议之一但在过去的排名中被遗漏的 AAAI。NeurIPS（原名为 NIPS）在 2018 年改名了，为了保持名称的一致性，我在这里将使用最新的名称。

这个分析是通过我多年来一直在不断改进的一系列脚本自动完成的。该论文列表抓取自在线会议录，在那里通常也可以找到作者的姓名。组织机构的名称则需要直接从 PDF 中提取，这就可能会带来相当多的噪声。我开发了各种方法来检查各类不同的名称并对其进行分组，但是如果你在文中发现了任何剩下的错误，请告知我。

虽然这篇文章重点介绍了近年来发表论文数最多的研究者和组织机构，但我想指出的是，我不认为论文发表数量是一个领域应该追逐或赞扬的东西。如下图所示，该领域正变得越来越热门，并且论文数量的快速增长也伴随着论文质量的参差不齐。写 1 篇独具开创性的论文总比发布 10 篇通通都容易被遗忘的充量性的论文要好。这篇文章旨在从更清晰、更高的视角来看待发表论文的研究者、组织机构以及他们在各会议上发表论文的现状，或许能为有好想法的新的研究者带来一些灵感。

会议论文发表数量排名

首先，我们来看一下所有会议在 2012-2018 年间的论文发表数量。大多数机器学习会议的论文发表数量保持继续增长，其中 AAAI 和 NeurIPS 超过了 1000 篇论文；EMNLP 和 NAACL 的论文发表数量与往年相比也有大幅增长； ACL 和 COLING 的论文发表数量则与往年差不多；EACL 在今年没有举行；而 TACL 和 CL 的论文发表数量多年来一直保持相对平稳的状态。