当微软研究院遇上CVPR，四篇论文抢鲜看 | CVPR 2017

本文作者：隔壁王大喵

编辑：郭奕欣

2017-07-19 20:56

专题：CVPR 2017

导语：CVPR是计算机视觉与模式识别领域最有影响力的国际学术会议之一，雷锋网AI科技评论将从夏威夷带来一线报道。

雷锋网AI科技评论按：CVPR全称为“IEEE Conference on Computer Vision and Pattern Recognition”（计算机视觉与模式识别会议），是计算机视觉与模式识别领域最有影响力的国际学术会议之一。CVPR将于2017于7月21日至7月26日举行，雷锋网AI科技评论将从夏威夷带来一线报道。该会议举办期间，雷锋网将围绕会议议程及获奖论文展开系列专题报道，敬请期待。

当微软研究院遇上CVPR，四篇论文抢鲜看 | CVPR 2017

论文一：《StyleBank: An Explicit Representation for Neural Image Style Transfer》

论文作者：Dongdong Chen, Lu Yuan, Jing Liao, Nenghai Yu, Gang Hua

论文链接：https://arxiv.org/abs/1703.09210

论文摘要：

据雷锋网了解，该项工作提出了一种基于神经网络的SytleBank算法。该算法的用途顾名思义就是用于图像风格迁移（Image style transfer）。StyleBank由许多的卷积滤波器堆（Convolution filter banks）组成，并且每一个滤波器堆（Filter bank）代表了一种图像风格。为了将一张图像风格转换成特定的画风，与之相对应的滤波器堆将被应用于由单个自动编码器（Auto-encoder）生成的中间特征嵌入（Intermediate feature embedding）上。

当微软研究院遇上CVPR，四篇论文抢鲜看 | CVPR 2017

图一，展示了该论文采用的网络结构，它包含有3个模块：图像编码器、负责风格转换的StyleBank层和图像解码器。

据悉，StyleBank和自动编码器将以联合的方式同时进行学习训练。然后由于采用了显示滤波器堆表征（Explicit filter bank representation）这一结构所带来的灵活性，使得网络在学习过程中，自动编码器不需要对任何图像风格信息进行编码。

当微软研究院遇上CVPR，四篇论文抢鲜看 | CVPR 2017

图二，展示了从风格化后图像中的两种代表性补丁中学习到的风格重构。

另外该结构也使得我们能够在网络上实现增量学习（Incremental learning），也就说，我们可以在保持自动编码器不变的情况下通过学习全新的滤波器堆的方式，给网络添加全新的图像风格。显式的风格表征（Explicit style representation）以及灵活的网络设计，使得我们不仅能在图像级别（Image level）融合风格，而且在更细微的区域级别（Region level）也能实现画风融合。

当微软研究院遇上CVPR，四篇论文抢鲜看 | CVPR 2017

图三，经典图像的风格化结果，包含了四部分不同的颜色或纹理。

同时，该项工作所提出的方法也是第一个借鉴了传统的文本映射方法（Texton mapping methods）的风格迁移网络，从而为基于神经网络的风格迁移研究提供了新的思路。此外，该方法还具有很多其它的优点，比如：容易训练、实时运行、生成的图像效果较好。

论文二：《Deep Quantization: Encoding Convolutional Activations with Deep Generative Model》

论文作者：Zhaofan Qiu, Ting Yao, Tao Mei

论文链接：https://arxiv.org/abs/1611.09502

论文摘要：

深度卷积神经网络（Deep convolutional neural networks, CNNs）已经被证实了对于处理视觉识别问题的有效性，而其中从卷积层的激活中学习通用表示（Universal representation）则是一个更加根本的问题。据雷锋网了解，在这项由梅涛老师指导的研究工作中，研究员们提出了使用变分自动编码器（Variational AutoEncoder, VAE）的Fisher Vector编码（FV-VAE），这是一种全新的深度架构。该架构通过端到端（End-to-end）的方式进行训练，以实现量化深度生成模型（Deep generative model）中卷积层的局部激活。

当微软研究院遇上CVPR，四篇论文抢鲜看 | CVPR 2017

图一，展示了来自CNN不同卷积层激活的可视化表示。第一行，全连接层的全局激活；第二行，采用Fisher Vector编码的卷积激活；第三行，采用FV-VAE编码的卷积激活。

为了将FV编码策略纳入到深度生成模型中，研究员们引入了变分自动编码器模型，该模型引导了神经网络中的变分推理和学习，并且可以使用标准的随机梯度下降法直接进行优化。与通过简单地将离散混合模型拟合为数据分布的常规生成模型（例如，高斯混合模型）来表征的FV不同，该论文中所提出的FV-VAE能够更加灵活地表示出数据的自然特性，并且具备更好的泛化能力。最后，研究员们在视频动作识别（Video action recognition）和细粒度图像分类（Fine-grained image classification）两项任务中，分别在UCF101、ActivityNet和CUB-200-2011三个公共数据集上进行了大量的实验。与目前最新的其它同类方法相比，实验结果表现优秀。而最显著的是，FV-VAE在UCF101数据集上达到了94.2%的准确率，这一数值是当前最佳。

论文三：《Collaborative Deep Reinforcement Learning for Joint Object Search》

论文作者：Xiangyu Kong, Bo Xin, Yizhou Wang, Gang Hua

论文链接：https://arxiv.org/abs/1702.05573

论文摘要：

该篇论文的研究员研究了在互动场景下，多个对象的联合自顶向下主动搜索（Joint top-down active search）的问题，例如，骑自行车的人，放在桌上的杯子等。研究员认为在互动场景中，对象之间的交互通常可以为彼此提供上下文提示，利用这一信息将有助于提高搜索的效率。据悉，通过将每个检测器作为智能代理，该论文第一个提出了协作多智能代理（Collaborative multi-agent）的深度强化学习算法，在有效利用这些有益的上下文信息的基础上，学习联合主动对象定位（Joint active object localization）的最优策略。

当微软研究院遇上CVPR，四篇论文抢鲜看 | CVPR 2017

图一，展示了联合智能代理检测（Joint agent detection）与单一智能代理检测（Single agent detection）的结果比较。边框（Bounding box）的轨迹通过颜色渐变来展示。蓝色用于人物而红色用于自行车。其中成功的检测结果通过加粗的绿色边框进行强调。当采用联合智能代理检测时，在15次迭代之内便检测到了自行车和小孩；当采用单一智能代理检测时，即便在200次迭代之后依然没有正确定位到自行车（图中只显示了前30次迭代）。

该论文中，通过Q-networks之间的门控交叉连接来学习多智能代理间通信，而这一点的实现则依赖于具有联合开发采样（Joint exploitation sampling）的新型多智能代理深度Q-learning学习算法。论文的研究员在多对象检测基准（Multiple object detection benchmarks）中验证该方法。最后，实验表明该模型不仅有助于提高最新的活跃定位模型（Active localization models）的性能，还能揭示直观可解释的有趣的联合检测模式（Co-detection patterns）。

论文四：《Neural Aggregation Network for Video Face Recognition》

论文作者：Jiaolong Yang, Peiran Ren, Dongqing Zhang, Dong Chen, Fang Wen, Hongdong Li, Gang Hua

作者主页：https://www.microsoft.com/en-us/research/people/jiaoyan/

论文链接：https://arxiv.org/abs/1603.05474

论文摘要：

本文提出了一种用于视频中人脸识别的神经聚合网络（Neural Aggregation Network, NAN）。据悉，该网络将人脸视频或者人脸图像集（这些人脸数据中关于某一个人的人脸图像数量可变）作为输入，然后生成可用于识别的紧凑且维度固定的特征表示。整个网络由两大模块组成。

当微软研究院遇上CVPR，四篇论文抢鲜看 | CVPR 2017

图一，展示了视频人脸识别的网络架构。所有的人脸图像输入{x_k}都在特征嵌入模块通过CNN进行处理了，然后生成一组特征向量{f_k}。然后这些特征将被传送给聚合模块，以便于生成一个单一的128维的向量r¹，并以此作为输入人脸的表征。之后该表征将被用于人脸识别。

特征嵌入模块（Feature embedding module）是一个深度卷积神经网络（CNN），它的作用是将每张人脸图像映射到一个特征向量。而另一个模块是聚合模块（Aggregation module），它由两个注意力块（Attention blocks）组成，注意力块能够自适应地聚合特征向量，以便于在两个块所跨越的凸包中形成单个特征。同时因为注意力机制的引入，图像顺序将不影响聚合的结果。该论文所提出的NAN受到标准分类或验证损失的训练，并且没有任何额外的监督信号。然后还发现了，NAN能够自动学会偏向采用高质量的人脸图像而排斥低质量的人脸，比如模糊、遮挡和曝光不当的面部图像。通过在IJB-A、YouTuBe Face、Celebrity-1000这三个视频人脸识别基准上的实验表明，NAN始终优于朴素聚合方法（Naive aggregation methods），并且也刷新了准确率。

Via CVPR 2017，雷锋网整理

雷峰网原创文章，未经授权禁止转载。详情见转载须知。