伯克利AI研究所：新型元学习法MAML的前世今生。

本文作者：汪思颖

编辑：杨晓凡

2017-07-21 17:50

导语：伯克利AI研究所带来了他们的最新研究——未知模型元学习法（MAML）。这种方法非常简单，并且优于已知的很多方法。

雷锋网 AI科技评论按：伯克利AI研究所带来了他们的最新研究——未知模型元学习法（MAML）。它不会对模型的形式做任何假设，也没有为元学习引入额外的参数，极易应用于许多领域，包括分类、回归和强化学习。这种方法非常简单，并且优于已知的很多方法。

雷锋网 AI科技评论将其编译如下：

智能的一个关键层面是多才多艺——即拥有做许多不同事情的能力。目前的人工智能系统擅长掌握单一技能，如精通围棋的Go、深度回答能力超强的Watson，甚至还有自动控制直升机系统。但是，当你让人工智能系统去做不同种类看似简单的问题时，它就会举步维艰。在《Jeopardy》中的智力问答冠军Watson不能交谈，一个能熟练操控直升机飞行的系统不能应用于其他新的、简单的情形，比如为了扑灭火灾，进行定位、飞行和悬停操作。相比之下，人类可以做很多事，智能地适应各种新的、未曾看过的情形。怎样才能使人工智能变得像人一样多才多艺呢?

已经有了几种技术来解决上述问题，在这篇文章中，伯克利AI研究所评价了这些技术，同时讨论了他们针对上述问题的最新技术——未知模型元学习法（点击打开关于这个方法的论文以及代码）。

当前的AI系统能从零开始学习，花费大量的时间和经验掌握一项复杂的技能。但是，如果希望系统能够掌握许多技能并适应多种状况，从零开始逐个技能逐步训练的代价太大了。现在需要系统重用以前的经验，更快地学习新任务，而不是从头学习。这种方法叫学会学习或元学习，是通往全能型系统的关键踏脚石，这种通用系统在生命期内能从大量任务中持续不断地学习。

什么是学会学习，它现在都有哪些应用？

最早的元学习方法可以追溯到上世纪80年代末和90年代初，Jürgen Schmidhuber的论文、Yoshua和Samy Bengio的工作中都有提到。近年来，元学习成为热门话题，关于它的论文席卷而来。它最常用在这些地方：超参数和神经网络优化，发掘好的网络架构，小样本图像识别和快速的强化学习。

伯克利AI研究所：新型元学习法MAML的前世今生。

上图是几种常见的元学习方法

小样本学习

2015年，Brendan Lake等人发表了一篇论文，挑战了现代机器学习方法。他们指出机器可以通过一个概念中的单个或几个例子学会新的概念。例如，Lake认为人类可以只看到一张图片(如下图所示)就学会识别“新型双轮车”，而在这之前的机器则不能像人一样泛化概念。(对于从未见过的字母表中的字符，人类也可以在见过一个示例之后将它画出来)。

伯克利AI研究所：新型元学习法MAML的前世今生。

和论文一起，Lake还公布了Omniglot数据集，这个数据集是MNIST的“转置”，共计1623类字符，每类包含20个样本。很快，紧随2016年ICML的论文，出现了两种深度学习模型，它们使用的是记忆增强神经网络和顺序生成模型，这表明，深度模型通过少量例子学会学习是可能的，虽然还没有达到人类的水平。

目前元学习方法的工作原理

先是让系统接触大量的任务进行训练,然后再测试这个系统学习新任务的能力。比如会有这样的任务：要识别一张新图像是五个分类中的哪一个，每个分类只有一张示例图像；或学会在一次遍历之后高效的走出迷宫。这与许多标准的机器学习技术不同，它们的方法是在单个任务上进行训练，在任务中单独留出的样例中进行测试。

伯克利AI研究所：新型元学习法MAML的前世今生。

元学习过程中，在元训练集中训练模型学习任务。有两种优化在起作用——一种是学习器，它负责学习新任务；另一种是元学习器，它负责训练学习器。元学习的方法通常分为三类:循环模型、度量学习和学习优化器法。

循环模型

有一些做法可以训练出一个循环模型，例如LSTM网络，先是连续地接收数据集，然后处理来自目标任务的输入。对于图像识别来说，可能需要持续把数据集中成对的图像—标签对传递给网络，然后再传递要识别的新样例。

伯克利AI研究所：新型元学习法MAML的前世今生。

元学习器使用梯度下降法，而学习器只是简单地在循环网络中执行。这是最常见的方法之一，已经被用于小样本识别和回归、元强化学习。由于其灵活性，这种方法比其他方法(从元的角度)更低效，因为学习器网络需要从零开始找到学习策略。

度量学习

这种方法需要学习一个度量空间，在这个空间里学习特别高效。该方法主要用于小样本识别。直观地说，如果目标是从少量的样本图像中学习，那么有一种简单的方法是用已有的样本图像与试图识别的图像作比较。

但是，正如你可能想象的那样，在像素空间中比较图像不会起到很好的效果。你可以在一个训练好的度量空间里训练孪生网络或执行比较。与以前的方法一样，元学习使用梯度下降法（或你偏好的神经网络优化器），鉴于学习器扮演的角色是元训练度量空间中的对比体系，例如近邻算法。这些方法可以很好地用于小样本识别，即使在回归或强化学习等其他元学习领域尚未证实有同样的效果。

学习优化器法

最后一个方法是学习优化器法。在这种方法中，一个网络（元学习器）学习更新另一个网络（学习器），以便学习器高效地学习任务。为了更好地优化神经网络，人们对这种方法进行了广泛的研究。元学习器通常是循环网络，以便记住之前是如何校正学习器模型的。元学习器可以用强化学习或监督学习的方式来训练。Ravi和Larochelle最近演示了这种方法用于小样本图像识别的优点，提出了这样的观点：学习器模型也是一种需要学习的优化过程。

像元学习一样学会初始化

可以证明，目前为止，迁移学习最大的成果是用ImageNet预训练来初始化视觉网络权重。特别是，当处理新的视觉任务时，众所周知的范式是首先为任务收集带标签的数据集，得到预训练过的ImageNet分类器，然后利用梯度下降法，基于采集到的数据来微调网络。使用这种方法，神经网络可以更有效地从更少的数据集中学习新的基于图像的任务。

然而，预训练的效果也就这样。因为网络的最底层仍然需要高度适应新的任务，像小样本学习那样太小的数据集仍会造成严重的过拟合。此外，遗憾的是现在在语音、语言和控制等非视觉领域没有类似的预训练体系。从微调的方法既然取得了这么好得效果，有什么可以借鉴的吗?

未知模型元学习法（Model-Agnostic Meta-Learning ，MAML）

需要找到能够根据少量样本高效地进行微调的表征，那么有没有可能直接对初始表征做优化呢？这是伯克利AI研究所最近提出的未知模型元学习法（MAML）背后的想法。和其他元学习法一样，MAML能在大量不同的任务上训练，通过少量的梯度步骤，能快速得到适应新任务的表征。

元学习器试图找到一个初始值，不仅可以适应各种问题，而且可以快速（只需少量步骤）高效（只使用几个例子）地适应。下面是一个可视化图–假设我们正试图寻找一组具有高度适应性的参数θ，在元学习过程中（粗线），MAML优化一组参数，以便当执行关于某个任务i（灰线）的梯度步骤时，参数接近i任务的最优参数θi*。

伯克利AI研究所：新型元学习法MAML的前世今生。

这种方法非常简单，并且有许多优点。它不会对模型的形式做任何假设。它相当有效——没有为元学习引入额外的参数，并且使用已知的优化过程(梯度下降法)，而不是必须从零开始想出策略。最后，它极易应用于许多领域，包括分类、回归和强化学习。

尽管这种方法很简单，令人惊讶的是，它在流行的小样本图像识别基准、Omniglot和MiniImageNet2上优于现在的许多方法，包括更复杂的或适用于特定领域的方法。

除了识别之外，他们还试图学习如何让模拟机器人的行为适应不同的目标，这类似于文章最开始提到多才多艺性。为此，他们将MAML与强化学习中的策略梯度方法结合。通过MAML可以学到一种策略，它可以让模拟机器人在单一的梯度更新中适应移动方向和速度。请看如下视频：伯克利AI研究所：新型元学习法MAML的前世今生。