人工智能如何实现可靠的视觉追踪 |IJCAI2016论文详解

本文作者：李尊

2016-07-15 18:47

导语：导读：2016国际人工智能联合会议（IJCAI2016）于7月9日至7月15日举行，今年会议聚焦于人类意识的人工智能，本文是IJCAI2016接收论文。

导读：2016国际人工智能联合会议（IJCAI2016）于7月9日至7月15日举行，今年会议聚焦于人类意识的人工智能，本文是IJCAI2016接收论文。除了论文详解之外，我们另外邀请到哈尔滨工业大学李衍杰副教授进行点评。

基于可靠记忆的视觉追踪

联合编译：Blake、章敏、陈圳

摘要

在本文中，我们提出了一个新的视觉追踪架构，它能在大量视频中智能地发现可靠模式，用来减少长期追踪任务中的偏移误差。首先，我们设计了一种基于离散傅里叶变化（DFT-based）的视觉追踪器，它能够在确保实时表现的情况下对大量样本进行追踪。然后我们提出了一种新的使用时间约束的集群办法，它能从之前的画面中发现并记住相应模式，我们称之为“可靠记忆”。凭借这种方法，我们的追踪器可以利用未被污染信息来减少偏移问题。实现结果表明我们的追踪器在目前的基准数据集上实现了最佳的表现。更进一步的是，它能解决在超过4000帧画面的长视频中进行鲁棒性追踪的问题，但其他方法在早期画面帧数中就不能准确追踪了。

1. 引言

在计算机视觉和人工智能领域中，视觉追踪是一个虽然基础却充满挑战的问题。虽然近年来已经取得了许多进步，但是仍然有喜多未解决的难题。因为其在许多因素方面还存在复杂性，比如亮度和角度变化、混乱的环境以及形状畸变与遮挡等问题。大量有关视觉追踪的研究都采用检测追踪框架，通过将现有的机器学习方法（通常是判断性的）与在线学习技术应用到其中，这些方法获得了不错的结果。为了针对不同的表现变化进行建模，他们对大量的样本进行了检测和更新处理。然而，他们所有人都碰到了同样的困境：虽然更多的样本能带来更好的准确度和适应性，但是也同样提高了计算成本与偏移的风险。

为了更好的判断方式，Ross等人利用修正学习率（learning-rate）的通用模型对目标表现的变化做了记录。学习率（learning-rate）本质上是在适应性和稳定性之间取得折中方案。然而在一个很小的学习率下，他们的模型在以前的样本上的作用在画面帧数上仍然指数性的下掉，且偏移错误仍然不断上升。为了减少偏移错误，Babenko等人设计围绕目标区域发现隐藏结构信息。通过将第一帧已标记样本与追踪过程中的样本结合，其他的方法都在尝试建立这样的模型来避免偏移错误。然而，很少有样本能够被看做是“非常确定的”，这也反过来限制了它们在长期挑战性任务中的鲁棒性。最近，多种方法使用离散傅里叶变化（DFT）来进行快速检测并实现了在最小的计算成本下的最高精确度。然而和其它通用方法一样，它们模型的记忆长度受限于一个修正遗忘率，所以它们仍然在长期任务中仍然存在累计偏移错误。

有一个非常重要的观察——当被追踪目标平稳移动时且没有遮挡或者旋转等情况下，它在特征空间中的不同画面中的表现是相当相似的。相反当它进行剧烈的移动时，它的表现可能与之前一个画面都不一样。因此，如果我们用一个时间约束来划分这些样本（只有这样相邻的时间量才能聚集到一起），这样当目标进行微小的表现变化时数据集才能识别出来。我们将人类记忆来对这些数据簇进行类比，使用可靠的记忆来代表经过长时间感知的大型簇。在这些文本中，拥有更多样本支持的早期记忆比很少样本支持的近期记忆更加可靠，特别是当画面变化偏移错误累积的时候。因此，追踪器可以从早先的记忆中选取相关性高的样本从偏移错误中恢复过来。

基于这些研究，我们提出了一种新的追踪框架，它能够在连续画面中发现自相关的表现簇，然后为长期鲁棒性视觉追踪将可靠记忆保存起来。首先，我们设计了一种基于离散傅里叶变化（DFT-based）的视觉追踪器。它能够在确保实时表现的情况下，对大量追踪样本进行准确检测并保存良好的记忆。然后我们提出了一种新的使用时间约束的集群办法，它能从之前的画面中发现清晰可靠的记忆，这能帮助我们的追踪器减少偏移误差。这种方式获得的数据流固有相关性，并保证在积分图像的仔细设计以较快的速度收敛。据我们所知，我们提出的时间限制簇办法在视觉流数据分析中相当新颖，它的收敛速度与良好表现体现了其在在线视频问题上的巨大潜力。特别是它能够在之前追踪过的样本中中发现数据簇（即可靠的记忆），还让我们的追踪器能够减少偏移误差。实现结果表明我们的追踪器在处理偏移误差上相当优秀，并且在目前的基准数据集上实现了目前最佳的表现。更进一步的是，它能在超过4000帧画面的视频中实现鲁棒性地追踪，其他的方法在早期的画面中就不能准确追踪了。

人工智能如何实现可靠的视觉追踪 |IJCAI2016论文详解

图1 简单介绍我们方法的逻辑

2.基于循环架构的视觉追踪

最近一些研究使用了离散傅里叶变化（DFT）并且对目标区域使用循环架构，实现了目前技术水平下最小计算成本的最高精确度。在本节中，我们将简单介绍下这些与我们的工作高度相关的方法。

假设X⋴RL是大小为MXN的图像块的矢量，集中在目标中心区域（L=MXN），我们的目标是发现能使花费最小的RLS函数：

人工智能如何实现可靠的视觉追踪 |IJCAI2016论文详解

公式一

公式一也可这样表示

人工智能如何实现可靠的视觉追踪 |IJCAI2016论文详解

公式二

公式（2）中的函数是凸的且可微的，它有一个封闭（解析）形式的解

人工智能如何实现可靠的视觉追踪 |IJCAI2016论文详解

也可以这样表示

人工智能如何实现可靠的视觉追踪 |IJCAI2016论文详解

等式3的分离是在傅里叶领域进行的，因此它是按元素素进行的。在实践中，不需要从A中计算α，所以在给定的图像块 z上可以进行快速检测通过：

人工智能如何实现可靠的视觉追踪 |IJCAI2016论文详解

Y中的脉冲峰显示了输入图像z的目标转换。在 [Gray, 2005; Rifkin et al., 2003;Henriques et al., 2012]中有详细的推导过程。

尽管最近的方法MOSSE和ACT有着不同的核函数配置合特征（例如，点产生的核心k导致的MOSSE，和RBF核心导致的更后面的两个），他们都在当前帧p使用了简单的线性组合学习目标外观模型{xp，Ap}通过

人工智能如何实现可靠的视觉追踪 |IJCAI2016论文详解

CSK通过等式4直接更新它的分级系数Ap，为了稳定的目标，MOSSE和ACT分别更新分子Apn和系数Ap的分母ApD。学习率γ是长期记忆和模型适应能力的权衡参数。扩展等式4后我们得到：

人工智能如何实现可靠的视觉追踪 |IJCAI2016论文详解

三种方法都有记忆力指数减少模式：学习率γ通常都很小，例如γ=0.1，样品{xj，Aj}对确定帧j 100帧之后的影响可以忽略不计。换句话说，在帮助抑制抵抗累积漂移误差前，基于追踪器的学习率无法准确追索样品的踪迹。

3.提出的方法

除了上面提到的基于卷积的视觉跟踪器，还要很多其它的追踪器用了相似的结构如Q ˆ p =(1-γ)Q ˆ p-1+γQp （学习率参数γ(0, 1]且有漂移的问题）更新他们的模型Q。

我们发现流畅的动作通常提供一致的外观线索，它可以被模拟为可靠的记忆，并且从漂移问题（由于激烈的外观变化造成）中恢复路径。在该部分，我们首先介绍了我们新颖的框架，它可以在处理大量的样本的同时保证快速检测。随后，我们详尽阐述看关于智能整理过去样本到不同的和可靠的集群（允许我们的追踪器抵抗漂移误差）的细节。

3.1大量样本的循环追踪器

给定在帧p的正样本xp，我们想建立一个适应模型{xp，Ap}用图像z快速检测接下来p+1帧的样本：

人工智能如何实现可靠的视觉追踪 |IJCAI2016论文详解

如图所示，适应学习外观xp是以前样本p和固定比例γ中xp注意力的结合。系数{βj}p-1j=1代表当前评估外观xp和以前外观{xj}p-1j=1的相关性。选择的{βj}p-1j=1应该使模型满足：1）适应新的外观变化，2）由过去的外观组成以避免漂移现象。在本论文中，我们讨论了用偏于以前可靠的记忆设置{βj}p-1j=1，它可以给我们的追踪器提供非常高的鲁棒性以避免漂移误差。我们在3.2节中讨论了如何找到这些可靠的记忆，并在3.3节中介绍了于{βj}p-1j=1的相关性。

现在，我们集中于寻找一套分类系数α——适用于学习外观Xp的一致性和当前外观xp的适应性。基于等式1和等式2我们得出以下的成本函数，以尽量减少：

人工智能如何实现可靠的视觉追踪 |IJCAI2016论文详解

我们发现适应性学习外观x^p应该近似于当前的xp，因为它是接近于过去{xj}p-1j=1外观和当前外观xp的组合，如等式7所示。注意两个核矩阵Kp和K^p

（和他们的线性组合λI）是半正定。通过联系等式8和

人工智能如何实现可靠的视觉追踪 |IJCAI2016论文详解

只要找到适合的系数{βj}p-1j=1，我们就可以通过等式7和等式9建立检测模型{x^p,A^p}。下一帧p+1中，可以通过有这种模型的等式6进行快速检测。

人工智能如何实现可靠的视觉追踪 |IJCAI2016论文详解

图2：左：如算法1中描述的距离矩阵D，右：为了直观理解，展示了六个有着相应颜色边界盒的具有代表性的组。大边界盒中的图像块是当前群体（记忆）的平均外观，而小的图像块是从每个群集中在时间域上均匀地选择的样本。

人工智能如何实现可靠的视觉追踪 |IJCAI2016论文详解

算法1

3.2时间约束聚类

本部分中，我们介绍了时间约束聚类——从输入样本（以非常快的方式）学习区别和可靠记忆。结合排序的记忆（3.3节），我们的追踪器对于不准确的追踪结果具有鲁棒性，且可以从漂移误差中恢复出来。

假设一组正样本在帧P中给出：

人工智能如何实现可靠的视觉追踪 |IJCAI2016论文详解

我们的目标如下：1）在每个子集sh的样本都具有高相关性；2）来自不同子集的样本有比较大的外观差异，因此它们的线性组合是模糊的，甚至是模棱两可的描述跟踪目标（例如，来自不同目标的不同观点的样本）。所以它可以被建模为一个普遍的聚类问题：

人工智能如何实现可靠的视觉追踪 |IJCAI2016论文详解

这是一个离散的优化问题被称为NP-hard，通过调整到固定常量K的子集M的数量，k-means聚类可以收敛到局部最优。

然而，在视觉跟踪的进程中，我们不知道聚类的足够数量。同时过多的集群会导致过拟合问题，而过少的集群可能会导致歧义。更关键的是，一旦我们在聚类期间允许样本随机结合，任何一个集群都有带入漂移误差污染样品的风险，就算是错误标记的样品也一样，这反过来又会降低建立在他们身上的模型的性能。

其中有一个重要的发现，在时域中目标外观相互关闭或许会形成一个区别和一致模式，比如可靠记忆。如果在一段时间内，一个完美追踪的目标以即没有大的旋转也没有大的角度变化的方式进行移动，那么与不同角度的特征进行对比时，它的矢量特征会有更高的相似性。为了发现这些记忆，我们在等式10中加入了时间约束：

人工智能如何实现可靠的视觉追踪 |IJCAI2016论文详解

然而这个新问题的约束是相互分离的，并且想要达到全局最优十分的困难。因此我们设计了一个极具野心的算法，如算法1，这一算法是从p子集的微小状态开始的。这一算法试图通过联合相邻子集sh和sh+1来减少公式10中原函数的正则化r(|M|),但却使得平均样本的距离增加。

通过Integral Image的巧妙使用，在算法1中的每一联合步骤的评价操作只需使用O（1）的运行时间在integral image J中，每一次迭代只需花费O（p）的操作。整个计算过程发生在双重树的底部，就算是在最糟糕的情况下也是发生在O(p log p)，在桌面计算超过1000个例子但运行时间少于30ms。在设计的实验中，我们可以见到所提议的算法在发现突出特征集合（可靠的记忆）对用于我们的追踪器进行学习已经足够。

3.3 追踪框架的工作流程

在我们的框架中，我们已采用了两个特征库，其中一个是跨越框架收集积极的实例，另一个是（曾由U提及）用于收集学习记忆。每一个内存u∈U,并且包括一定数量的实例

人工智能如何实现可靠的视觉追踪 |IJCAI2016论文详解

当Nu表示的是存储器u中的实例数量，那么Bu就是存储器u刚开始的框架数量。这一记忆信心与我们的假设是一致的；存储器在初始时期实例越多就越稳定且更不易受渐增的迁移错误影响。对于每一个框架，我们最开始为评价目标的翻译会使用公式6对目标进行检测，紧接着会利用新的实例和公式7以及公式9去更新我们的外观模型{ˆxp, ˆAp}。

相关系数能通过下列公式进行计算：

人工智能如何实现可靠的视觉追踪 |IJCAI2016论文详解

为更新记忆，我们使用算法1去收集在第一个特征库中的积极实例，并将其融入进“记忆”中；把所有的实例除了最后一个都添加进U中。当|U|达到其临界值时，存储器的记忆信心会降到最低从而会立马放弃。

4. 实验

我们的框架是在Matlab中实施的，其运行速度达到12fps至20fps，在桌面上Intel Xeon(R)3.5GHz CPU，一个Tesla K40c的视频存储卡，以及32GB RAM。适应能力比γ在所有的试验中都以经验设定为0.15。回采率是每一个视频的前40帧平均协方差的1.2倍。内存|U |的最大值被定为10并且（Nu）的最大值为100。

4.1 时间约束聚类评价

为证实我们的假设：时间约束聚类评价是按照时间顺序追踪实例并形成可信和可识别的模式，对此基于追踪结果我们对离线的积极实例按照算法1来进行计算。因为之前的收集的实例会影响后面收集实例，所以我们的的算法在离线或是在线模式都会给出准确的精准且相同的结果。由于空间局限，在图2我们按照Sylvester顺序对结果进行解释。如图所示，目标经历了光照变化，历经1345帧在平面或是不在平面的旋转。左边部分显示的是矩阵D距离，可以通过算法1进行计算。像素Dij是深蓝色（淡黄色）暗示实例Xi和实例Xj再特征集合中的距离近（远）。不同的框架颜色代表不同的时间约束集群。右边部分显示的是6个不同的集群，分别对应矩阵中不同的框架颜色。存储器#1和存储器#8是两个最大的集群包含了大量的外形相似实例（蓝色）。存储器#11代表的是集群只有16个实例。由于其出现晚且实例数量有限，所以导致记忆信心cu十分的低，所以不太可能取代现有可靠的存储器。

4.2 通过深度CNN进行加速

我们的追踪器对于搜寻相似的模式(内存)的固有要求是在框架全局与目标检测任务重合的部分进行。最近卷积神经网络（CNN）急速发展，Faster-RCNN通过使用目标建议个目标检测共有的卷积层其检测速度达到了≥5fps。为保证记忆的可靠性，我们给追踪器装上了全方位视角，并改进了Faster-RCNN探索器的FC层，因为我们通过学习发现足够多的视频记忆能帮助追踪器解决由追踪范围过小造成的问题。通过已有的粗糙探索，我们的追踪器能从就近范围到目标进行探索，从而进一步确保追踪结果的准确和可行，但却有出错的危险。注意到我们只调整CNN一次，在Tesla K40c上150秒运行时间进行3000此迭代。当追踪任务时间过长，例如，超过了3000帧，平均的fps会超过15，但是值得对粗糙性进行改进的。在接下来的文章中，我们会展示在每5帧中实施CNN检测，每一次所花时间会少于0.1秒。

4.3 定量分析

首先我们会在50个极具挑战序列中对我们的方法进行评价，从OTB-2013开始，会依次和12个先进的方法进行比较：ACT，AST，ASLA，CXT，DSST，KCF，LOT，MEEM，SCM，Struct，TGPR TLD，VTD。

人工智能如何实现可靠的视觉追踪 |IJCAI2016论文详解

图3：对于OTB-2013数据集中的50个序列追踪结果比较。我们的追踪器是由RMT所指代的，并且表现最好。MEEM，TGPR，和KCF的表现与我们的表现结果较为接近。12个追踪器中只有前10个的结果可见。其成功率在每一个模式的名字后可见。

人工智能如何实现可靠的视觉追踪 |IJCAI2016论文详解

表1：基于中心位置在像素方面的平均误差（越小越好），对追踪结果进行了比较，比较对象是4个较长的视频，超过了13,000帧。平均表现是通过帧的准确度来进行判断的。

我们采用公共资源（例如，OTB-2013）发布的代码或是作者所发布的版本，在测试中的每一个追踪器其所有的参数都是固定的。图3展示了在整个数据集中只有一个通过了评价（OPE）标准的成功图。我们追踪器是RMT（可信的记忆追踪器）其表现结果最佳，但MEEM，TGPR，KCF和DSST表现也不差。值得注意是，TGRP基于附加实例来建立追踪器的想法和MEEM使用追踪器抓拍的想法都可以理解为是充分利用早期形成的记忆模式，这与我们的方法也是息息相关的。我们的追踪器在如图3中所示的具有挑战性的场景：堵塞，平面旋转，消失和急速移动中都表现的十分出色。其主要原因是我们的追踪器拥有大量可信的记忆以及全方位的视角，所以就算是外部特征发生了显著的变化，它也能重新把焦点集聚在目标上。

为探索我们所使用追踪器的坚固性，以及对长时间任务中迁移错误的抵抗性，把追踪器用于四个长序列形式，一共有13000多帧。之前已经基于我们所使用的方法息息相关的方法对卷积过滤层进行了评估：MOSSE，ACT，DSST，KCF，和MEEM，以及以探测器为基础的TLD方法。为展示“可信记忆”在阻止未用于CNN实例方面的有效性，我们也展示了CNN-boosted DEET和KCF的比较结果。MOSSE在早期的帧中会经常丢失目标，但KCF，ACT，和DSST却能在几百帧中都能准确地对目标进行追踪，但是它们在600帧之后也会丢失目标。MEEM在超过1700帧的视频Motocross中表现出了较好的坚强性，但它不能适应大规模的变化，而且结果也会经常出错。从CNN到KCF和DSST的改进是有限的，因为CNN是用受过污染的例子进行训练，所以会导致不准确（甚至是错误警报），除非这些追踪器能把自己从CNN的训练过程中剔除出来，就如同我们所使用的方法一样，否则结果不会改善。我们所使用的追踪器和TLD在所有的视频中比其他追踪器表现都要更好，因为使用了全视野追踪器进行目标锁定。然而，如果是基于离线的树形模式，TLD理解错误的积极例子速度会变慢，进而导致探测错误或是追踪结果不准确。反之，由CNN探测器指导和我们信任的记忆进行训练，我们的追踪器仅仅只会受少部分错误探测结果的影响。它能准确地在所有的帧中定位目标，并在这四个视频的最后一帧之前给出准确的位置以及目标的大小。

5.结论

在本文我们提出了一个新颖的帧追踪方法，它能跨越所有的追踪过的实例按照时间顺序探索外形相似的聚集，接着保存可靠的记忆以用于视觉追踪。这一种新颖的聚类方法和时间限制都是进过精心设计的，能帮助追踪从大量的实例中提出有用的记忆并用于精准探测，但同时也保证其实时性能。试验表明我们的方法在从长期的追踪任务迁移错误中进行恢复的能力突出，并且还超过了其他先进的方法。

追踪示例视频见此

via IJCAI2016

点评

视觉跟踪是计算机视觉和人工智能的基础和挑战性问题，这篇论文针对该问题提出了一种新的视觉跟踪方法，该方法能从大量视频中智能地发现可靠模式，用来减少长期追踪任务中的偏移误差。现在该方向的研究已取得了很大的进展，但在光照强度和角度改变，杂乱背景等情况下还存在较多问题需要研究，结合近期在线学习的跟踪-检测方法取得了很不错的结果。但仍然存在计算量大等问题，而利用学习率来记录目标外观变化的方法则存在以往样本记忆指数衰减的问题，从而不能消除跟踪过程累计的漂移误差。为此，论文通过探索可用的目标外观集群，保护视频中的可靠记忆信息，利用可靠记忆信息基于离散傅里叶变换设计了一种循环跟踪器（Circulant Tracker）。该跟踪器不仅具有很高的跟踪成功度率，而且具有一定的实时性。

PS : 本文由雷锋网独家编译，未经许可拒绝转载！

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

2人收藏

李尊

编辑

扫描关注作者微信

发私信

当月热门文章