只需1/500数据便可掌握Atari游戏！清华叉院助理教授提出小数据RL模型，引爆AI社区

本文作者：我在思考中

2021-11-09 09:51

导语：RL智能体不再被有限数据扼住“喉咙”

只需1/500数据便可掌握Atari游戏！清华叉院助理教授提出小数据RL模型，引爆AI社区

作者 | 莓酊

编辑 | 青暮

EfficientZero的性能接近 DQN（Deep Q-Learning）在 2 亿帧时的性能，但消耗的数据却减少 500 倍。

近日，一项研究在学术界引起了广泛的关注和热议。有消息称，Deep Mind和Google已经在内部关门开会讨论了。粉丝众多的科技向youtube博主Yannic kicher甚至专门做了半个小时的视频来讲解这篇论文。学者们更是用“completely game- changing”、“major development in RL”、“this is impressive”来形它。其团队老师本人也在推特上表示：在使用相同数据的情况下，这是RL智能体第一次直接从像素中获得了超越人类的性能！这会让通用强化学习更接近真实世界的场景，比如机器人的采样效率会是关注重点。

只需1/500数据便可掌握Atari游戏！清华叉院助理教授提出小数据RL模型，引爆AI社区

现在，就让我们隆重的介绍下本文的主角—— EfficientZero。

EfficientZero算法是在清华大学交叉信息研究院高阳团队的新研究《使用有限数据掌控Atari游戏》（ Mastering Atari Games with Limited Data）中提出的。EfficientZero的性能接近DQN（Deep Q-Learning）在 2 亿帧时的性能，但消耗的数据却减少了500 倍！它能够在贴近现实复杂情况的Atari（雅达利）游戏中，从零训练并只需两个小时，就可达到同等条件下人类平均水平的190.4%，或116.0%的中值性能。

只需1/500数据便可掌握Atari游戏！清华叉院助理教授提出小数据RL模型，引爆AI社区

论文链接：https://arxiv.org/abs/2111.00210#

样本效率一直是强化学习中最“令人头疼”的挑战，重要的方法需要数百万(甚至数十亿)环境步骤来训练。一种从MuZero模型改进而来的高效视觉RL算法—— EfficientZero，该模型从零开始训练，最终在Atari中仅用两个小时的训练数据上就超过了经过相同条件下的的人类平均水平。

MuZero是通过将基于树的搜索与经过学习的模型相结合，可以在一系列具有挑战性和视觉复杂的领域中，无需了解基本的动态变化即可实现出色性能。AI科技评论在以往的文章中对MuZero有过报道：DeepMind又出大招！新算法MuZero登顶Nature，AI离人类规划又近了一步。那为什么会选择Atari游戏呢？Atari 游戏场景繁多，规则各异，一定程度上贴合现实复杂环境，因此长期被当作验证强化学习算法在多因素环境下的性能测试标准。EfficientZero的低样本复杂度和高性能可以使强化学习更接近现实世界的适用性。

只需1/500数据便可掌握Atari游戏！清华叉院助理教授提出小数据RL模型，引爆AI社区

如图所示，EfficientZero在人类平均标准得分中位数上分别比之前的SoTA性能出色170%和180%。是第一个在Atari 100k基准上优于人类平均性能的算法。

强化学习在挑战性的问题上取得了巨大的成功。如2015年DeepMind研发的DQN网络、击败了中国围棋世界冠军柯洁的AlphaGo、和会在Dota2中打团战的OpenAI Five等等。但这些都是站在巨大数据量的“肩膀上”训练出来的策略。像AlphaZero从国际象棋小白到顶尖高手需要完成2100万场比赛，一个职业棋手每天大约只能完成5场比赛，这意味着人类棋手要11500年才能拥有相同的经验值。

在模拟和游戏中应用RL算法，样本复杂性不成阻碍。当涉及到现实生活中的问题时，例如机器人操作、医疗保健和广告推荐系统，在保持低样本复杂性的同时实现高性能是能否可行的至关钥匙。

过去几年，我们在样本高效强化学习上已有许多成绩。来自真实环境的数据和来自模型的“想象数据”都可以训练策略。但大多数成功都是在基于状态的环境中。比如在基于图像的环境中，鱼和熊掌不可兼的情况比比皆是，MuZero和 Dreamer V2展示了超越人类的表现，但样本效率不高；SimPLe等其他方法非常有效，但性能较差。最近，在数据高效机制中，中数据增强和自监督方法应用无模型方法取得一定成功。然而，却依然达不到人类预期的水准。

为了提高样本效率并保持优越的性能，自监督环境模型、减轻模型复合误差的机制和纠正非策略问题的方法这三点对基于模型的视觉RL智能体至关重要。EfficientZero在MuZero的基础上，对这三点进行了改进：“利用时序预测一致性 (temporal contrastive consistency)，减少预测回报的不确定性 (aleatory uncertainty) 以及纠正离线策略价值的偏移 (off-policy correction)。”

在对DeepMind Control (DMControl)套件的模拟机器人环境进行的实验中，EfficientZero实现了最先进的性能，优于直接从真实状态中学习的模型state SAC，这进一步验证了EfficientZero的有效性。被有限数据“扼住”深度强化学习算法“喉咙”的时代也许不会再有了。