在少量数据甚至无数据基础下也能进行终身学习 |IJCAI2016杰出学生论文

本文作者：李尊

2016-07-14 22:05

导语：2016国际人工智能联合会议（IJCAI2016）于7月9日至7月15日举行，今年会议聚焦于人类意识的人工智能，本文是IJCAI2016杰出学生论文。

导读：2016国际人工智能联合会议（IJCAI2016）于7月9日至7月15日举行，今年会议聚焦于人类意识的人工智能，本文是IJCAI2016杰出学生论文（Distinguished Student Paper）。除了论文详解之外，我们另外邀请到哈尔滨工业大学李衍杰副教授进行点评。

在长期学习中使用任务特征做 Zero-Shot 知识迁移

联合编译：Blake、章敏、陈圳

摘要

任务间的知识迁移可以提升学习模型的表现，但是需要对任务间关系进行准确评估，从而识别迁移的相关知识。这些任务间的关系一般是基于每个任务的训练数据而进行评估的，对于从少量数据中快速学习每个连续任务为目标的终身学习来说，这个设定是效率低下的。为了减轻负担，我们基于耦合词典学习开发了一个终身强化学习方法，该耦合词典学习将高阶任务描述符合并到了任务间关系建模中。我们的结果表明，使用任务描述符能改善学习到的任务策略性能，既提供了我们方法有效的理论证明，又证明展示了在一系列动态控制问题上的进步。在只给描述符一个新任务的情况下，这一终身学习器也能够通过 zero-shot 学习使用耦合词典准确预测任务策略，不再需要在解决任务之前暂停收集训练数据了。

1.引言

通过重新使用其他相关任务的知识，转移和多任务学习（MTL）方法减少了独立任务模型训练所需要的经验量。

基于每个任务的训练数据，这些技术一般通过对任务间关系建模来选择相关迁移知识。然而，在知识成功迁移之前，这个过程要求针对每个识别关系的任务有足够的训练数据。只要有一个高阶任务描述，人类能够针对一个新任务快速创立引导程序，在真正的任务执行之前调用以往的经验。例如在看到一款新的宜家椅子盒子图片时，我们能马上联想到之前的组装椅子的经验，然后开始思考该如何组装这款椅子。同样的，在给定质量和长度的情况下，一个有经验的反转极平衡agent可以能够对控制器进行预测，且发生与物理系统交互之前。

受这个观点启发，我们探索利用高阶的任务描述来提升多重机器学习任务中间的迁移效率。我们主要关注终身学习的场景，在这些场景中多重任务不断进行且目标是通过前序知识快速学会新的任务。虽然我们在本文中重点关注的是强化学习（RL）任务，但是我们的方法也能容易扩展到回归和分类问题上。

我们的算法——终身学习任务描述符（TaDeLL），将任务描述符编码成特征矢量来识别每个任务，将这些矢量作为辅助信息来进一步对独立任务进行数据训练。这种使用任务特征来进行知识迁移在之前也有学者使用过。为了与他们的工作进行对比，我们的方法都是针对连续任务在线运行的，并且我们的方法计算效率更高。

我们使用耦合字典学习来对任务间的联系进行建模，不仅有任务描述符，还有终身学习中的独立任务政策。耦合字典学习执行这样的政策描述符相似的任务应该有相似的政策，但是仍然允许字字典元素的自由准确地反映不同任务的政策。我们将字典耦合到互相关的稀疏编码概念连接，提供了为什么任务描述符能提高性能的原因，并实证检验了这一改进理论依据。

为了进一步提升任务政策，我们提出任务标识符允许学习者在只给出它们的描述的情况下准确预测不明任务的政策，这个没有数据的学习过程称为zero-shot学习。在终身学习设定上这种能力十分重要，它允许系统通过迁移准确预测新任务政策，不需要在每个任务上暂停来收集数据。

2.相关工作

Batch MTL方法经常在任务间对关系进行建模，来检测知识的迁移。这些技术包括对任务距离度量进行建模，使用相关性来检测迁移是否恰当，或者基于最近的领域来进行建模。最近，MTL已经扩张到终身学习设定中，在这个范围中衰减、分类与强化学习任务不断进行。然而，所有的这些方法都需要针对每个任务的训练数据，为了读取他们的联系然后检测迁移的知识。

与仅仅单独倚靠任务训练数据不同，好几个研究工作都已经探索了在MTL中利用高阶任务描述符来对任务间关系进行建模并迁移学习设定。结合神经网络任务标识符已经被用来定义具体任务的前序或者控制独立任务丛中间的门控网络。本文主要关注批量设定下多重任务的分类和衰减，其中系统能够访问所有任务的数据和特征，将我们对于终身学习任务描述符的研究与连续RL任务进行对比。

与我们的工作相似，Sinapov等人使用任务描述符来预估每组迁移学习任务中的可迁移性。给定描述符一个新任务，他们识别出最有可能迁移的原始任务，然后在RL中使用原始任务。虽他们的方式有效，但是因为他们需要通过重复模拟来计算每组任务的迁移性，所以计算起来太过昂贵。他们的评估也只限制在迁移学习设定中，没有考虑到连续任务迁移的影响，也没有想我们在终身学习设定中一样更新迁移模型。

我们的工作也与Romera-Paredes和Tor提出的简单Zero-Shot学习（简单ZSL）有关，它学会一个多类线性模型、分解线性模型参数、假设描述符是重构模型的潜在基础参数。

我们的方法假设了一个更加灵活的联系：模型参数和任务描述符都能通过分来的潜在基础参数进行重构。与我们的终身学习方法相比，简单的ZSL是在离线多类设定下操作的。

3.背景

3.1 强化学习

一个强化学习（RL）的agent必须在环境中选取序列行动来最大化预期回报。一个RL任务基本是按照Markov决策过程（MDP）来规划的，即<X，A，P，R，r>。X是一系列状态集，A是agent可能执行的动作集，P：XxAxX⇥[0,1]是描述系统动态的状态转移可能性。R：XxAxX⇥R是回报函数，r⋴ [0, 1)是随着时间分配的回报。在事件步h上，agent在状态xh⋴X通过政策π：XxA⇥[0,1]选择行动a⋴A，通过矢量控制参数定义函数。强化学习的目的是发现最佳的政策π*和θ*来最大化预估回报。然而，学习一个独立任务仍然需要大量的轨迹，这也激励迁移来减少环境交流的数量。

政策梯度（PG）方法是我们的基础学习方法，作为一系列RL算法被用来解决像机器控制等连续状态和行动步高维问题。PG方法的目标是优化预期平均回报：

在少量数据甚至无数据基础下也能进行终身学习 |IJCAI2016杰出学生论文

3.2 终身机器学习

在终身学习设定中，学习者面临多重、连续任务，且必须基于前序经验来快速学习每个任务。学习者可能会在任何时候遇到之前的任务，因此必须基于先前的任务优化表现。Agent并不知道任务Tmax的总数、任务分布或者任务顺序。

在时间t上，终身学习者会遇到任务Z(t)。在本文中，每个任务Zt由MDP<X^(t)，A^(t)，P^(t)，R^(t)，r^(t)>来定义，但是终身学习设定以及我们的方法能够同等处理分类或者衰减任务。Agent将会连续学习每个任务，在转至到下一个任务前获取训练数据。Agent的目标是学会相应参数下的最佳政策。理想状态下，从之前任务学习到的知识应该能加速并提高每个新任务Z(t)的表现。同样，终身学习者应该能有效扩展到大量的任务上去，同时从最小的数据中快速学习每个任务。

有效终身学习算法（ELLA）和PG-ELLA是分别针对在终身学习设定中分类/衰减任务和RL任务设计的。

对于每个任务模型，两种方法都假设了可以用共享知识库L进行因式分解的参数，从而促进任务之间的传递。具体来说，任务Z (t)的模型参数由θ（t）=LS（t）给出，其中L Rdxk是整个模型空间的共享基准，且S（t） Rk是整个基准的稀疏系数。这种因式分解对于终身学习和多任务学习都是非常有效的。在这种设想下，PG的MTL目标是：

在少量数据甚至无数据基础下也能进行终身学习 |IJCAI2016杰出学生论文

为了达到终身学习设置中的目标，Bou Ammar等人近似多任务目标，首先替代PG目标的下边界，然后，使用second-order Taylor扩展到近似目标，评估每一个任务Z（t）中α（t）Rd的单任务策略参数，并且只在当前时间点更新系数s（t）。该进程减少了MTL对于稀疏编码共享基准L上单任务策略问题的注意力，并确保通过下面组成PG-ELLA的在线更新规则，能够有效的解决S和L。

在少量数据甚至无数据基础下也能进行终身学习 |IJCAI2016杰出学生论文

尽管这对终身学习是非常的有效，但在学者解决它之前，该方法需要大量的训练数据去评估每一个新方法的策略。我们通过将任务描述纳入终身学习来消除这种限制，以确保 zero-shot 转移到新的任务。

4.任务描述符

尽管大多数的MTL和终身学习方法使用了任务训练数据模型的内在任务关系，但高级描述能以完全不同的方式描述任务。例如，在多任务医学领域，病人通常通过人口数据和疾病表现分配到任务中。在控制问题方面，动态系统参数（例如，弹簧-质量阻尼器系统中的弹簧，质量和阻尼常数）进行任务描述。描述也可以来自外部的来源，例如Wikipedia。这种任务描述已被广泛的应用于zero-shot学习。

通常，我们假设每一个任务Z（t）都有一个相关的描述符m（t）（在第一次介绍任务时给到了学者）。学者并不清楚未来的任务，或任务描述符的分配。描述符由特征向量Ø（m（t）Rdm表示，其中Ø（·）进行特征提取和（可能的）特征上的非线性基准变换。尽管在普遍的任务中都有不同的描述符，但我们没有对Ø（m（t）的唯一性做任何假设。此外，每一个任务都有相关的训练数据X（t）去学习模型；以防RL任务，数据由轨迹（通过代理在环境中的经验动态获得）组成。

5.任务描述符的终身学习

我们通过耦合字典将任务描述符组合到终身学习中，确保描述符和学习策略去增强彼此。尽管集中于RL任务，但我们的方法可以很容易地适应分类或回归，如附录中所述。

5.1耦合字典优化

如上文所述，大多数的多任务和终身学习方法都有成功的案列——用因式分解每个任务的策略参数θ（t）来作为共享基准：θ（t）=Ls（t）的稀疏线性组合。在效率上，每一列共享基准L作为一个可重复使用的策略组件，代表一个衔接知识块。在终身学习中，当系统学习到更多任务时，基准L随着时间的推移而被精炼。系数向量S=[s（1）。。。。S（T）]在共享基准上编码任务策略，并基于他们的策略如何分享知识，提供一个嵌入任务。

我们对于描述符任务做了相似的假设——描述符特征Ø（m（r））能够通过使用描述符空间一个潜在的基准D Rdm×k进行线性分解。系数是描述符基准的捕获关系（基于他们描述符中的共性相似的嵌入任务）。从co-view视角看，两种策略和描述符都提供了任务的信息，因此他们能够互相交流学习。对于两种观点每一个基本的任务都是共同的，所以我们的任务是寻找嵌入策略和相应的任务描述符。我们可以通过耦合两个基准L和D来实现，共享相同的系数向量S重建策略和描述符。因此对于任务Z（t）

在少量数据甚至无数据基础下也能进行终身学习 |IJCAI2016杰出学生论文

为了在终身学习过程中优化耦合基准L和D，我们采用了来自稀疏编码文献中的耦合字典优化技术，它用于优化多特征空间（共享一个联合稀疏代表）的字典。耦合字典学习的概念，引出了高性能的图像超分辨率算法，允许高分辨率图像从低分辨率的样品中重建，并用于多模态检索，和跨域检索。

在少量数据甚至无数据基础下也能进行终身学习 |IJCAI2016杰出学生论文

等式6中给出了因式分解，我们可以重新制定对于耦合词典的多任务目标（公式1）如：

在少量数据甚至无数据基础下也能进行终身学习 |IJCAI2016杰出学生论文

随着算法1中给出一系列前期-任务的更新结果，该目标现在可以有效地在网上解决。伴着基于特征值分解的递归构造，L和D使用等式3-5独自更新。我们完整实现的方法，在第三方网站上面是可用的。

在少量数据甚至无数据基础下也能进行终身学习 |IJCAI2016杰出学生论文

5.2 Zero-shot转移学习

在终身设置中，面对新任务时，代理的目标是尽快的学习针对任务有效的策略。在这个阶段，前期的多任务和终身学者，在他们能产生一个恰当的策略之前发生了延迟，因为他们需要从新任务中获得数据，以便识别相关的知识和训练新的策略。

结合任务描述符，仅给出描述符，以确保我们的方法快速预测针对新任务的策略。进行zero-shot转移的操作是通过使用耦合字典学习来确保的，它允许我们在一个特征空间（例如任务描述符）观察数据实例，并利用字典和稀疏编码，在其它的特征空间中（例如策略参数）恢复其潜在的信号。

对于新任务Z（tnew）给出唯一的描述符m（tnew），我们可以在学习字典D中潜在的描述符空间路径 LASSO上评估任务的嵌入：

在少量数据甚至无数据基础下也能进行终身学习 |IJCAI2016杰出学生论文

由于S（tnew）给出的评估同样也作为潜在策略空间L的系数，我们可以快速预测新任务的策略如：

在少量数据甚至无数据基础下也能进行终身学习 |IJCAI2016杰出学生论文

算法2中给出了该zero-shot转移学习的过程。

5.3理论分析

本节讨论了为什么通过耦合字典组合任务描述符可以提升学习策略的性能，并确保zero-shot转移到新任务。在附录2中，我们提供了TaDeLL的集合。全样本的复杂性分析超出了论文的范围，事实上，对于zero-shot学习，它仍然是一个开放的问题。

为了分析策略的改善程度，从策略参数分解成θ（t）=Ls（t）时，我们就通过展示用耦合字典组合描述符可以提高L和S两者的性能而继续实验。在本分析中，我们使用了互相关（mutual coherence）的概念，它在稀疏恢复文学中早已被广泛研究。互相关测量字典元素的相关性如：

在少量数据甚至无数据基础下也能进行终身学习 |IJCAI2016杰出学生论文

如果M（Q）=0，那么Q是可逆的正交矩阵，且稀疏恢复可以直接通过反演解决；如果M（Q）=1意味着Q不是满秩，是一个低劣的字典。直观的说，低互相关意味着字典的纵列非常的不同，因此这样一个“优良”的字典可以代表很多不同的策略，有可能得到更多的知识转移。这种直觉在下面被展示出：

因此，相互一致性较低的L会引出更稳定的方法用于解决不准确的单项任务评估策略。接下来我们会运用方法降低L的相互一致性。

TaDeLL改变了从训练L到训练L和D的联合（包括在K中）的问题。在稀疏修复理论中，s*(t)是任务Z(t)中公式1的解决策略，所以s*(t)在所有的任务中都保持不变。定理5.1暗示，如果M(K) ＜M(L)，那么联合模式学习能帮助解决更准确地修复问题。为进一步证明，从贝叶斯定理（Bayesian）的角度来看，公式7也一样是MAP评估的衍生，加强了拉普拉斯算子(Laplacian)在s(t)’s和分布和假设L是一个高斯矩阵并且其原素都是独立分布的。使用此类公式作为M(L)和M(K)的评价标准，因为新加的任务描述增加了d，大部分可能是M(K) ＜M(L)，这也暗示TdDeLL学会了较高级的自编代码。而且，如果M(D) ≤M(L)，定义表明我们可以通过零射门迁移单独使用D去修复任务政策。

为表示任务特征能提高稀疏修复，我们通过以下关于LASSO的定理5.2进行证明。让s*是θ=Qs系统的一个特殊解决方法。

这一定理表明LASSO的错误重建是与1/d是成正比的。当我们通过β（t）包含描述器时，RHS的共同特性会从d变成（d+dm）,但与此同时K和k保持不变，由此产生了紧密的配合。因此任务描述能提高已学习过的代码编码的质量和稀疏修复的准确度。通过使用策略或是描述器保证是s(t)相等的紧密配合，定理5.2建议应该dm≥d，以保证零样本学习同样也能生产出对于s(t)相同的评价。

6.实验

我们基于3个基准系统对我们的方法和学习控制策略进行评估。

6.1 基准动力系统

弹簧质量减震器（SM）。这一系统通过3个参数来进行描述：弹簧常数，质量，和减幅常数。系统的状态是由物体的位置和速率决定的。控制器会通过对物体施加一个力量，试图把它放到一个指定的位置。

车杆（BM）。这一系统专注于在水平面上以固定的速率移动时，要保持自行车的平稳。系统的特点在于自行车的质量，x和z坐标的质量中心，有关自行车的形状参数（轴距，步道，和头上的角）。其状态是自行车的倾斜程度以及其他衍生状态。

6.2 方法

在每一个域名我们会产生40个任务，每一个的动力都不一样，系统参数也不一样。每一个任务的回馈是当前状态和目标之间的差距。对于终身学习，任务会不断遇见重复，学习也会不断进行直到每一个任务至少遇见过一次。在不同的方法之间我们使用相同顺序的随机任务，以保证比较的公正。学习者会取样100个步骤轨迹，而且每一个任务展示之中其学习过程限制在30次迭代之内。MTL之中，所有的任务都是同时进行呈现的。我们使用自然策略梯度估计NAC（Natural Actor Critic）作为基础，学习标准系统和情节加强。为在每一个域名之内优化所有方法在20个任务上的联合表现并平衡描述器和策略之间，我们分别选择了k和规定化参数参数。基于40个任务的最终策略，我们会对学习曲线进行评价，会把7个测试的结果进行平均。每一个任务的系统参数会看做是任务描述器的特征；我们同时也会试着把一些非线性转变，但发现使用线性特征也运作良好。

6.3 基于标准系统的结果

图1比较了我们用于终身学习的TaDeLL方法并带有任务描述器。1.PG-ELLA并未使用任务特征。2.GO-MTL，其中MTL对公式1有进行优化。3.单一任务学习使用PG。为进行比较，我们通过改变优化，使用MTL对公式7进行优化，并把结果描述为TaDeMTL。在图中阴影暗示着标准错误。

我们发现在每一个系统中任务描述器都能改进终身学习，即使是在SM和BK域名内通过GO-MTL仅从经验中无法获得训练策略情况下，也能提高学习。

在少量数据甚至无数据基础下也能进行终身学习 |IJCAI2016杰出学生论文

图1：基于标准动力系统多任务（实心线）图2：运行时间比较

终身（虚线），和单一任务学习（点线）的表现。

在少量数据甚至无数据基础下也能进行终身学习 |IJCAI2016杰出学生论文

图3：新任务的零样本迁移。图（a）显示的是在每一个域名的最初“强力启动”的提高；图（b）-（d）描述了零样本策略作为用于PG启动热身地初始化的结果。

在所有的域名内TaDeMTL和TaDeLL 之间的区别几乎可以忽略，除CD之外（其任务十分复杂），这也暗示我们在线优化的有效性。

图3展示了任务描述器对用于新任务的零样本迁移十分有效。在每一个域名内为检测零样本的表现，另外生成了40个任务，并对这些任务的结果进行平均。图3a显示了我们的方法改进了在新任务中的最初表现（例如，“强力启动”），而这也超越了Sinapov等人的方法表现以及单一任务的PG，但这一方法允许在任务中进行训练。我们把Sinapov等人的方法在CP上的差表现归因于CP策略本质上相差很大；在域名内，源策略与目标策略相差很大，Sinapov等人的算法不能较好地将其源策略进行迁移。此外此方法的计算费用与我们的方法（与任务数一致）相比也十分的昂贵（是任务数的两倍），如图2；运行时间的试验细节可见附录。图3b-3d显示了零样本策略用于PG学习的最初启动热身十分的有效，紧接着这也会改进其策略。

6.4 四旋翼的应用

我们也会把这一方法运用于更具挑战性的四旋翼控制域名，关注重点在于把零样本迁移运用于新的任务。为确保现实的动力，我们使用Bouadallah和Siegwart模式，此类模式都是经过物理系统证实的。四旋翼是由3个惯性常数和机翼长度决定的，且其状态包括横摇、俯仰和偏航以及其他衍生状态。

在少量数据甚至无数据基础下也能进行终身学习 |IJCAI2016杰出学生论文

图4：在四旋翼控制上的启动热身

图4显示的我们运用的结果，展示了TaDeLL能通过零样本学习预测新四旋翼控制器，且其准确度与PG相似，但PG必须在系统中进行训练。作为基准，TaDeLL对于PG的热身启动十分有效。

7.结论

在把任务描述器融入终身学习中建议使用联合代码字典的方法，因为使用描述器能提高已学的策略表现，同时也能让我们在观察训练数据之前就能预测用于新任务的策略。在动力控制问题上，试验显示我们的方法比其他方法表现更为出色，并且要求的运行时间也比类似模式的要少。

点评：

人类组装一款新的椅子时，通常借助以往的组装经验完成新椅子的组装，因而，在学习新任务的控制策略时，往往希望借鉴其他任务的学习经验，即任务间的信息传递，来改进学习效果。任务之间的信息传递有助于改善学习的性能，但通常需要对任务间的联系进行精确估计，才能识别要传递的相关信息，而这些精确估计一般要基于每个任务的训练数据，而长期学习（lifelong learning）的目标是利用尽可能少的数据来快速地学习连续的不同任务的策略，这种情况下，这种依靠精确估计任务间的联系的方法就不可取了，因为每个任务没有那么多训练数据，为此，该文利用任务描述符（task descriptor）来建模任务间的联系，并利用耦合字典优化的方法改进相继任务策略的学习效果；此外，该方法在没有任何新任务训练数据的情况下也可以预测新任务的策略。

via IJCAI 2016

PS : 本文由雷锋网独家编译，未经许可拒绝转载！

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

3人收藏

李尊

编辑

扫描关注作者微信

发私信

当月热门文章