李飞飞协同斯坦福、CMU带来全新成果：从网络嘈杂的视频中进行学习

本文作者：隔壁王大喵

编辑：郭奕欣

2017-06-14 16:00

专题：CVPR 2017

导语：这项研究是李飞飞团队在今年CVPR上的一项最新工作，该方法提出了一种模型用于自动标注网络中巨量的嘈杂视频。

李飞飞协同斯坦福、CMU带来全新成果：从网络嘈杂的视频中进行学习

李飞飞作为人工智能领域鲜有的活跃女性学者，不知道这一次她又带领着团队做出了怎样的贡献呢？赶紧随雷锋网AI科技评论来看看吧。这项研究是李飞飞团队在今年CVPR上的一项最新工作，该方法提出了一种模型用于自动标注网络中巨量的嘈杂视频。

以下内容是雷锋网AI科技评论根据论文内容进行的部分编译。

论文摘要

人类行为多种多样，而要如何才能让机器理解具有多样化和细粒度的人类行为，则是计算机视觉领域中的一个关键性的开放问题。通过手工的方式标注训练视频，对于少数的动作类型是可行的，但是这种策略无法完整覆盖丰富多样的所有动作。

李飞飞协同斯坦福、CMU带来全新成果：从网络嘈杂的视频中进行学习

图一，该论文中的模型使用一组标注数据来学习如何为新的没有见过的动作类别进行标注的策略。这样可以学习特定领域的专有知识，以及如何在避免语义漂移（Semantic drift）的同时选择不同的范例。比如，该模型可以从训练数据中进行学习，如图所示，其中人的动作线索对正确动作分类的帮助更大（比如“骑马”），而不是动物的外形。在测试期间，这种知识可以被应用于标记一些全新类别的嘈杂数据，比如“饲养动物”，而传统的半监督方法则是基于视觉相似（Visual similarity）性进行标注。

当前，解决这一个问题的一个可能有效的策略是，使用半监督（Semi-supervised）或者“网络监督（Webly-supervised）”的方法，利用来自网络检索所产生的嘈杂数据来学习新的动作。然而，这些方法要么通常无法学习到特定领域的知识（Domain-specific knowledge），要么依赖于需要不断迭代的手工调整的数据标签策略（Hand-tuned data labeling policies）。据雷锋网了解在这项研究中，李飞飞她们团队提出了一种基于增强学习（Reinforcement learning-based）的方法，该方法能够从嘈杂的网络检索结果中筛选出适合于训练分类器的样本。

李飞飞协同斯坦福、CMU带来全新成果：从网络嘈杂的视频中进行学习

图二，模型框架图。该模型使用从网络搜索所得的候选示例集，为特定的视觉概念学习分类器。在每一个时间节距（time step）t，模型通过Q-learning的智能体来选择样本（比如D_k），并将该样本加入到已经存在的正样本数据集D^t-1中构成训练样本。然后该训练样本被用于训练视觉分类器。分类器将同时更新智能体的状态s^t+1并提供一个奖励r^t。然后在测试期间，经过训练的智能体能够用于从任意的全新的视觉概念的网络检索结果中，自动选取出正样本。

该方法的核心思想是，使用Q-learning来学习一个小型标签训练数据上的数据标签策略，然后再利用该模型来自动标注嘈杂的网络数据，以获得新的视觉概念。

据雷锋网了解，为了验证该方法，研究员们在当前最富有挑战性的动作识别数据集Sports-1M上进行了实验，实验内容包括动作识别基准、细粒度和新动作类别预测。通过实验证明了该方法能够为嘈杂数据学习到足够好的标签，并且使用这些标签能够学习到准确的视觉概念分类器。

Via Learning to Learn from Noisy Web Videos

雷峰网版权文章，未经授权禁止转载。详情见转载须知。