IBM 和 UIUC 联合完成的 NIPS 2017 Oral 论文，简单优雅的办法识别场景响应指令

本文作者：杨晓凡

2017-12-12 17:11

导语：让人找空间中的某个东西容易，AI 还有很远的路要走

雷锋网 AI 科技评论按：随着深度学习模型自身的学习和表达能力的提高，越来越多的研究员已经把注意力转向了如何让 AI 和人类更好地互动。这就是一批难得多的问题了，之前雷锋网 AI 科技评论也报道过 Facebook AI 研究院在基于图像的对话系统方面的研究进展。

近期的 NIPS 2017 上，IBM AI 研究院和伊利诺伊大学厄巴纳-香槟分校（UIUC）共同组成的团队也有一篇论文被收录为口头报告论文（录取率仅为1.2%），其中提出了一种新的监督学习算法，用来解决 AI 领域广为人知的场景认知（textual grounding）问题，同时撰写了一篇博文简单介绍了论文成果。雷锋网 AI 科技评论把这篇博文编译如下。

想象这样一种情况，你想让别人递一件东西给你。你可能会说：「帮我拿一下你左边那张桌子上的蓝色钢笔吧。」人和人之间就是这样沟通的，用自然语言描述场景和目标物体。然而，想要教会人工智能系统执行这样的指令从来都是一件非常困难的事情。AI 可能可以识别「蓝色的钢笔」以及「桌子」这样的物体，但是如果有一张以上的桌子，就不一定知道是哪一张桌子了。这里欠缺的就是如何教会系统把给定图像、给定场景中的东西和输入的文本准确地联系起来。AI 系统的视野里往往会有许许多多的其它物体，而想要找的目标只是在某一个特定的小区域里而已。

如今的智能系统已经可以搭载各种各样的传感器，轻松地通过图像（甚至视频）和声音的形式捕捉周围环境的细节信息。但是如果想要弄懂这些记录的信息，然后基于它们跟人类进行互动的话，智能系统就需要在人类的话语和图像之间建立联系。场景认知要解决的就是把文本词组（比如语音识别引擎识别得到的话语）和图像中的区域连接起来的问题。换句话说，对于话语中提到的每一个物体（比如「蓝色的钢笔」和「你左边的桌子」），都要在图像中找到包含它的区域（这样系统就知道去那里帮你取了）。

很容易想到，场景认知有许多可能的应用领域，上面提到的这个人和 AI 互动的例子就是一种简单的情况。

IBM 和 UIUC 联合开发的算法在两个广泛使用的数据集中都刷新了当前的最好成绩：在 Flickr 30K 实体数据集上达到了 53.97% 准确率，超过此前最佳的 50.89%；然后在 ReferItGame 数据集上获得了 34.7% 的准确率，超过此前最佳的 26.93%。算法的输出如下图所示。

IBM 和 UIUC 联合完成的 NIPS 2017 Oral 论文，简单优雅的办法识别场景响应指令

两位戴着插花帽子的女士正在摆pose

在 IBM 和 UIUC 的研究人员们看来，这项成果的最大意义并不仅仅在于数据集上的准确率数字的提升（当然这确实也是一项重要的指标），更重要的是所提出的方法也相当优雅。下面图中就是所提方法的示意图。

IBM 和 UIUC 联合完成的 NIPS 2017 Oral 论文，简单优雅的办法识别场景响应指令

所提模型的总体结构

许多现有方法都是基于深度学习的，图像中的特征通过端到端的训练方式进行提取，但这样得到的特征的含义就很难解释。这篇论文中作者们提出的是一个混合型的方案，把一组显式地提取出的特征（文中称作「分数表」score maps）和一个构建出的 SVM 模型结合在一起。特征的分数表是可以拓展的，所以算法可以轻松地包含任何新的特征。论文中选择了一些容易获得的特征，比如从输入问句中得到的单词先验知识、区域几何偏好，以及其它一些语意分割、目标检测、位姿估计这样的依靠深度神经网络得到的「图像概念」。

在多数现有模型中，对于给定的一组候选区域，推理过程中都做的是相对简单直接的矩阵向量相乘操作。而对于论文中的混合模型，推理过程中要求解一个最小能量问题，它会搜索所有可能的边界框，找到最匹配程度最高的那个。

为了能够解出这个最小能量问题，作者们使用了一个带有分支定界 (branch and bound) 的子窗口搜索算算法，使得这个混合模型的端到端训练具有计算可行性（因为训练的时候需要多次求解最小能量问题）。作者们还对目标函数定义了一个带有可以轻松算出边界的恰当能量函数，以便高效地求解问题，并且可以去掉目前多数场景认知模型都用到的提出候选区域这个过程。

测试中，这个模型在场景认知的质量和可解释性两个方面都带来了巨大的提升。可解释性的一种体现是单词嵌入，比如询问语句的表征；对于这个模型，每个嵌入元素都可以和显式提取出的特征分数表（或者图像概念）产生直接的关联。当计算两个单词向量的余弦相似度的时候，这种嵌入的好处就可以得到明显的体现，同时也说明了比较接近的语句之间在语义上也有关联性（而且可以据此进行分组）。比如，「茶杯」、「饮料」、「咖啡」三个单词在语义上比较接近，在单词嵌入空间中它们的相似度也就远高于和其它不相关的单词之间的相似度。

研究员们未来的研究计划包括，把图像特征和输入词句连接起来以提升可解释性，以及把结构化信息显式地加入到模型中任何可能的位置上（比如这项研究中就有结构化输出）。作者们也意识到，从他们初次发表这项研究到现在，场景认知方面又有了许多新的论文、新的研究结果，所以他们也会向着「让人类和计算机之间更好地互动」的目标继续进行场景认知研究。

论文地址：papers.nips.cc/paper/6787/textual-grounding

via IBM Research，雷锋网 AI 科技评论编译

德扑 AI 不完全信息博弈论文领衔，NIPS 2017最佳论文 3 + 1 已经揭晓

NIPS 2017现场：8000人参会，最佳论文公布，算法压倒深度学习 | NIPS 2017

能看图回答问题的AI离我们还有多远？Facebook向视觉对话进发

Facebook 开始新一轮实习生招募计划，本科学历、了解Python、熟悉深度学习框架……

李飞飞：在物体识别之后，计算机视觉还要多久才能理解这个世界 | IROS 2017

雷峰网版权文章，未经授权禁止转载。详情见转载须知。