科技公司争相涌进ICML 2017，论文数占1/4，Google独占6.3％

本文作者：张驰

2017-08-01 18:45

专题：ICML：国际机器学习会议

导语：ICML是国际顶级的机器学习会议，今年的ICML将于8月6-11日在澳大利亚悉尼召开，届时雷锋网也将前往现场进行报道。

ICML是国际顶级的机器学习会议，它与NIPS一起，是机器学习与人工智能研究领域影响力极高的两个主要会议。今年的ICML将于8月6-11日在澳大利亚悉尼召开，届时雷锋网也将前往现场进行报道。

早在5月时，ICML 2017被接受的论文就已经公布了。今年的ICML收到了创纪录的1676篇论文，434篇被接受（也创下了新纪录）。OpenAI的研究科学家Andrej Karpathy对这些论文作了分析，并发现了一些有趣的事。

根据分析，所有论文中共出现了961个机构名称，其中420个只出现了一次。论文数前30名的机构如下：

科技公司争相涌进ICML 2017，论文数占1/4，Google独占6.3％

统计中Google和微软的论文数排在了前两名，CMU排第三。需要注意的是，统计中Google、Google公司、Google大脑和Google Research都属于一个类别，同样的还有斯坦福和斯坦福大学。一篇论文中多个人属于同一机构时会合并。

从这些统计中也可以看出，工业界发表的论文占了不小的比例。Karpathy统计了一些比较知名的工业界实验室的论文状况，比如DeepMind、Google、微软、Facebook、IBM、迪士尼、亚马逊和Adobe，发现他们的论文占论文总数的14％。而如果算上其它不太知名业界公司的论文，他认为约20-25％的论文有公司参与。也就是说，ICML 2017的论文中约四分之三是完全来自学术界。

另外，由于DeepMind和Google可以算一家，加在一起它们共参与60篇论文，占总论文的6.3％。

逐年分析这些论文可以发现，在2011年时很少有工业界研究出现在ICML上。而现在公司的参与有了很显著的提高。不过学术界仍然做得很好，贡献了很大一部分论文。

还有其它一些比较有趣的统计数据。

以第一作者身份论文被接受最多的是一位中国研究者朱泽园，他有5篇论文被接受。他如今在北美的微软研究院工作。

对第一作者所在机构进行统计，排名前五的是CMU（25），Google（19），DeepMind（15），MIT（14）和UCB（14），可见Google的实力。微软研究院以10篇排在第七。

纯数量统计并不能反应真实的研究状况，一个更重要的指标或许是论文被引用的情况，毕竟论文不是生来平等的。工业界与学术界内容被引用的情况如何，这点还没有统计。

ICML也也是窥见机器学习最新趋势的途径之一。深度学习当然是重要的内容，但雷锋网检索标题发现，只有6篇文章含这一关键词。其它出现频率较高的研究领域还有：强化学习，随机及高斯过程，嵌入（embeddings），贝叶斯优化，AutoML（用机器学习探索神经网络架构）等。

除了论文，ICML上最受关注的要属每天的主题演讲了。今年大会安排了四场主题演讲，涵盖了AI的前沿、应用和社会影响等方面。

四大主题演讲

牛津大学Peter Donnelly

科技公司争相涌进ICML 2017，论文数占1/4，Google独占6.3％

他演讲的主题是：基因组学、大数据与机器学习：理解生命图普，推动医疗革命。演讲会通过具体的例子来说明，将机器学习和其他推理工具应用于基因组数据的机会和挑战。

Donnelly是维康信托中心人类遗传学研究室主任和牛津大学统计学教授，以及Genomics Plc公司CEO。他是牛津大学博士，曾任伦敦大学和芝加哥大学教授。他的早期研究工作涉及人口遗传学随机模型的开发，后来逐渐开发研究遗传和基因组数据统计方法。他和团队开发了多种广泛使用的统计算法，包括STRUCTURE和PHASE。他还领导了一个名为wWGS500的项目，在其中牛津大学与Illumina合作，对500名具有一系列临床条件的个体进行测序，以评估临床医学中全基因组测序的短期潜力，这一项目也是NHS 100000基因组计划的前身。

过去10多年，基因测序的成本呈指数级下降，而未来10多年，或许会有近10亿人进行基因测序。海量的基因数据与个人的病历信息和可穿戴设备信息的结合，将显著提高我们评估个体健康风险、预测健康状况以及做出个性化治疗的能力。

哈佛大学Latanya Sweeney

科技公司争相涌进ICML 2017，论文数占1/4，Google独占6.3％

她的演讲主题是：AI设计者如何影响公民生活

作为哈佛大学政府和技术学院教授，Sweeney的使命是开发和运用技术，来评估和解决社会、政治和管理问题。她的重点研究领域是技术对人类的影响，她本人还是Technology Science总编辑。她对数据隐私也很感兴趣，是哈佛数据隐私实验室主任。

她认为，技术设计者（Technology designer）是新的决策者。虽然他们没有经过选举，而且大多数人不知道他们的名字，但正是他们开发工具和创新时做出的决定，影响了那些能规范我们日常生活的代码。隐私和安全是新技术的第一个挑战，而随着技术的进步，生活的方方面面都会被重新定义。

DeepMind的Raia Hadsell

科技公司争相涌进ICML 2017，论文数占1/4，Google独占6.3％

她的演讲主题是：迈向现实世界的加强学习

她是DeepMind的高级研究科学家，在深度学习和机器人领域有10多年研究经验。她早期的研究与用暹罗网络进行多学科学习有关，这可以用于不变特征学习。她的博士导师是Yann LeCun，后来加入CMU的机器人研究所，以及SRI International。她在2014年初加入了DeepMind，开始研究通用人工智能。她目前的研究侧重于AI代理和机器人系统持续学习的挑战。

深度强化学习已经迅速发展成为颇具潜力的人工智能研究领域，大量的雅达利游戏也被用于许多基础开发的主要基准。随着研究的成熟，更重要的是开发复杂的学习系统，以解决更复杂的任务。她届时会介绍DeepMind的最近研究，这些研究与在现实世界和具有复杂任务结构的挑战性环境中进行端到端学习有关。

马克斯·普朗克智能系统研究所Bernhard Schölkopf

科技公司争相涌进ICML 2017，论文数占1/4，Google独占6.3％