深度强化学习这块，有人说我们已经触顶了……

本文作者：黄善清

2019-04-29 18:22

导语：振聋发聩还是耸人听闻？

雷锋网 AI 科技评论：Open AI Five 讨论热潮正在持续。近日，有人在 reddit 网站上指出，Open AI Five 正式对外开放后的游戏表现不如预期，这说明深度强化学习已经触顶，由此引发网友们的激烈讨论，雷锋网 AI 科技评论将当中较有代表性的论点编译如下。

原题：

这篇帖子（https://www.reddit.com/r/MachineLearning/comments/bfq8v9/d_openai_five_vs_humans_currently_at_410633_992/）与推特（https://twitter.com/sherjilozair/status/1119256767798620161）指出，Open AI Five 略等同于接受将近 45,000 年的游戏培训，结果人类只花了不到一天的时间，便找着不断超越它的游戏策略。

我们都知道，Open AI Five 与 AlphaStar 是现有规模最大、操作最复杂的深度强化学习落地实践，但依然与人类智能存在较大差距。而且我敢打赌，如果将 AlphaStar 进行公开发布，任意人可以与之游戏，它也将迎来同样命运。

我知道有很多研究正在进行中，试图让深度强化学习变得更具有数据效率性，且在分布不均与对抗性例子问题上更具有鲁棒性。但目前看来，它与人类之间的差距是如此之大，以至于我怀疑，除了范式转变外，任何事情都不能有效地弥合这种差距。

对此，你的想法是什么？这是深度强化学习所能达到的极限，还是说我们仍然有希望推动该范式的发展？

网友回答：

@hobbesfanclub

我觉得一切才刚刚开始。每天都有大量的研究成果被发布，我甚至都有点跟不上了。我认为最先进的那些技术，经常过几天便不再是了，说明该领域依然有大量的工作需要我们去做。

对于在该领域工作的人来说，这些成就如今看来仍然叫人难以置信，真正令人印象深刻的，还是这些技术在宏伟的计划里显得非常年轻......

@adventuringraw

这个讨论本身就很搞笑...... 过去针对深度学习也有过类似探讨。大概是说我们是否已经达到神经网络的发展极限？要是没有基本的范式转变，是否更不可能取得突破？但是你看，后来出现过各种各样基于神经网络的新方法，这些方法曾在 2012 让人如此兴奋。GAN 就不用说了，还有 VAE、神经风格转移，包括深度强化学习本身同样基于神经网络理论，与其说深度学习被取代了，倒不如说它被积压在一堆新知识下面。它是一个组件、一个问题解决策略、一种思维方式。就连 NN 自身也是建立在各种过往的进步和见解上。

这只是我个人的想法...... 这看起来似乎是无模型方法的根本问题。你需要对特征空间进行密集覆盖，或者换句话说……你也许知道需要在一个充分探索过的区域做些什么，却不一定能够据此进行新的推理。那可以怎么做呢？你需要一个具备世界观的模型来进行推理。我之前看过一篇基于谷歌大脑 SimPLe 模型的强化学习论文，严格来说，转换至基于强化学习的模型并不是一个新想法... 在我们获得能够进行抽象推理的代理以前，尚有一些重要问题有待我们去解决。比如要怎么在空间中习得相关的独立实体、行动等？是否能够以无人监督的方式完成？在给出早期证据的情况下，如何通过策划实验来帮助消除可能世界的差异？如何将当前对世界的理解压缩成为低维度的表示，以便能够完美解析出问题解决的关键维度？就像……它可以习得身处环境的地图吗？创建有层次的长期计划的最佳方法是什么（先做什么，后做什么？）即便是图像分类，我们依然在基于形状的提取功能而非基于纹理的提取功能实现上面临困难……... 总的来说，局部模式比起全局模式更容易有瑕疵，因此我并不十分惊讶，我认为是 OpenAI 5 发现自身所做的策略更好被利用，从而使其更容易受到具有正确洞察力的玩家击破。

我最近一直在读 Judea Pearl 的因果关系论……从中发现了一些很有意思的东西。我不认为原始的 Pearl 因果模型表明我们需要的是明确向世界学习的智能体，而是能够适应新环境、进行宏观规划的智能体，这种智能体能够进行反事实推理，对自身世界具有强而有力的理解。鉴于我们还没完全了解即便只是创建一个鲁棒性的图像分类器究竟需要些什么（即使是在监督的环境中，无人监督模式更不用说了），我认为在深度强化学习能够实现自主进化以前，我们还有部分理论需要进行补充。

最疯狂的是...... 这些障碍似乎正在消失。这意味着什么？一个会玩 Dota2 、懂得合作、懂得推理的无人监督系统...... 现在就开始感觉这个系统即将在不久后出现。如果这都可能发生，还有什么是可能的吗？我并不惊讶 OpenAI 5 还没达到那种水平，但我们可以期待接下来会发生些什么。

@StrictOrder

在我看来，我们是在要求我们的函数逼近器去尝试近似错误的函数，或者更确切地说，我们给它们提供过于庞大的搜索空间，以致于它们无法将所接收到的信息点连接起来，因此它们只是利用这些经验来充实自己，而非泛化。

例如，我看到基于模型的智能体收敛于一个数量级更小的样本。这似乎是该领域非常有前途的一个研究方向。它让我想起在残差连接、RNN 、forget gates 模型出现以前训练深度图像分类器是多么的困难。我们需要修剪我们要求模型搜索的空间，或者至少给它一些好的先验，并以某种方式保存已经在一般表示中学习的信息。我们需要对模型的搜索空间进行剪枝，或者起码提供一些好的先验信息，并以某种方式保存在一般表示中已经学会的信息里。

最后我想说，放轻松。他们大部分时间都在从零开始学习。新生婴儿需要多长的时间才能实现某种连贯性? 得益于数十亿年来进化算法形式的计算，它们被赋予一种能够最好表示可能遇到的各种函数与模式的神经结构。

@Nater5000

Open AI Five 并未基于任何复杂的东西，至少就深度强化学习目前所能达到的状态而言。事实上，各种关于 OpenAI 的文章全面描述了它是如何运作的，从某种意义上说，这些算法并不依赖于近期开发出的许多复杂「扩展」来帮助推动强化学习研究。（AlphaStar 也是如此）

反之，OpenAI Five 最令人印象深刻的地方就在于他们成功地使用「简单」的方法对之进行训练。当然，花了 10 个月时间进行训练这个事实清楚表明这并非一个可以持续向前推进的可行方法。然而 Five 的这些智能体相对简单，仅仅通过对更复杂的方法进行实验就可以做出改进，这点说明我们实际上离深度强化学习的极限还有多远。

最重要的是，Five 在正式公开以后以及公开期间就未再受过训练。换句话说，人类能够乘机学会如何打败它，所以这并非什么了不起的成就，因为 Five 压根无法保护自己免受人类利用它们的策略弱点进行攻击。相反的，如果 OpenAI 允许这些智能体从游戏中自我学习，我们会发现，人类的击败策略将会在 Five 从失败中学习后失效。

听到有人说五人没有他们想象那么好，这让我觉得很疯狂，就因为它们输掉了不到 1％的赛事。该数字更能说明的是游戏的复杂性，而非智能体模型或训练算法的不足。成千上万的玩家致力于击败这一单一的 AI，我们可以将之理解为一个可以从经验中进行学习的大众来源对抗智能体。将其与静态模型相比似乎有点不太公平，因为静态模型无法抵御自身的缺点来保护自己 lol。

无论如何，深度强化学习远未达到极限。自 OpenAI Five 项目启动以来，在理解深度强化学习方面已经取得了许多进展，因此认为它已经过时也不完全是错误的。况且从一开始他们就不准备做一些花哨的事情。在如此复杂、基于策略的环境中训练相对通用的 RL 模型，它们的性能令人震惊。况且还没考虑到这是一个多智能体问题，人们似乎没有意识到这本身就是极其疯狂的事情 lol。

via https://www.reddit.com/r/MachineLearning/comments/bgvefd/d_have_we_hit_the_limits_of_deep_reinforcement/

雷锋网 AI 科技评论

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

3人收藏

黄善清

编辑

发私信

当月热门文章