UCL 教授汪军：多智能体强化学习的两大挑战 | CCF-GAIR 2017

本文作者：三川

2017-07-07 16:47

专题：GAIR 2017

导语：多智能体强化学习会不会缔造下一个 AlphaGo 奇迹？

2017 年 7 月 7 日，由中国计算机学会（CCF）主办，雷锋网与香港中文大学（深圳）承办的 CCF - GAIR 大会，在深圳大中华喜来登酒店开幕。在 AI 学术前沿专场的第三场， 伦敦大学学院 UCL 的汪军教授带来了以《群体智能的社会》为主题的报告。报告内容请看本篇雷锋网的现场速记。

汪军，伦敦大学学院（UCL）计算机系教授、互联网科学与大数据分析专业主任。主要研究智能信息系统，主要包括数据挖掘，计算广告学，推荐系统，机器学习，强化学习，生成模型等等。他发表了100多篇学术论文，多次获得最佳论文奖。是国际公认的计算广告学和智能推荐系统杰出华人专家。

UCL 教授汪军：多智能体强化学习的两大挑战 | CCF-GAIR 2017

汪军：潘院士今天早上讲了人工智能 2.0。其中的一个方向，是多个智能体之间的协作与竞争。我们还可以从社会学角度，把多智能体看作是一个群体；研究整个群体、动态系统的特性是什么。对于该话题，我希望给大家做一个介绍。

大家都了解 AlphaoGo，它的一项核心技术就是强化学习。相比模式识别和监督学习，它在缺乏训练数据集的情况下仍然可以工作。强化学习系统能够直接和环境交互，得到反馈信息，在此过程中不断学习，因此更加自然、灵活。强化学习的一项主要特性，是以收益（reward）定义目标方程，生成优化策略。

多智能体的强化学习

今天重点讲的，是多智能体的强化学习。它们单独的和环境进行交互。在一种情况下它们各自优化自己的目标，但这些目标之间有约束；另一种情况下，它们联合起来优化一个主要的目标方程。根据具体的情况会有不同的变化。

案例 1：互联网广告

过去，我们再互联网广告领域做了很多工作，比较早得应用了强化学习方法：在环境交互的情况下，根据投放广告以后用户的反馈，系统不断地进行学习。

目前我们可以在 10 毫秒之内做好决策，在每天 10 亿流量的情况下进行分析，帮助广告主精准投放。

案例 2：星际争霸

UCL 教授汪军：多智能体强化学习的两大挑战 | CCF-GAIR 2017

我们通过对星际争霸单位的控制，找到多智体的规律。研究它们在游戏里怎么合作、竞争与通讯。近几个月，我们和阿里巴巴合作开发了一套玩星际争霸的 AI 系统。该项目中，我们最想解决的是 AI 智体之间的通讯问题——当它们想合作起来攻打对方的时候，必须要有效地合作。我们希望在计算的时候，计算量相对较小，同时又达到智体的协同目的；于是采用了一种双向连通方式，效果非常明显。

目前，多智体强化学习的研究仍处于非常初步的阶段。这里，有两个方面的关键问题：

问题 1：多智体协同研究中，智体数量少

目前的研究，主要集中于少量多智体之间的协同。在有上万个智体的情况下，（应用研究成果的）效果就不是很明显。而许多现实场景中的多智体数量，可以达到百万、甚至千万级。

案例 3：智能打车 APP

一个很明显的例子是Uber、滴滴等智能打车应用。

这类例子中，每个用户手上的终端、每个司机手上的终端，你都可以把它们想象成智能体。它们可以做出决定：到底什么样的价钱我可以接受。系统层面甚至可以有一套机制合理分配资源。比如，出行高峰出租车比较少，但是需求量又比较大。而在其它的一些时候，可能出租车很多，但是需求量不大。系统怎么调配，这其实需要一个非常大的人工智能协作系统来分析。

案例 4：共享单车

共享单车的情况更加明显。你可以想象，如果给每个自行车装了芯片或者计算机，它就是一个很智能的东西，可以根据目前的情况，优化车辆的地理位置分布。

今天，如果要做一个强化学习的模型，这个模型必须要可以处理百万级的智体。只有在这个量级，我们才可以把人工智体组成的群体和生物群落做对比，观察宏观层面的活动规律。

应该怎么去做？我们可以从自然界里面获得一些启发。比如生态学的 self-organisation （“自组织”）理论：一些个体行为的简单规则，能造成种群层面的宏观规律。我们研究的课题之一，是探索多智能体组成的群体，和自然界中的动物群体，是否有相通之处？其活动模式是否遵循同一套规律？

案例 5： Lotka-Volterra 模型

这里，有一个动物界的著名模型名为 Lotka-Volterra （LV）模型。该模型描述的是：相互竞争的两个种群，它们种群数量之间的动态关系。我们根据该模型的理论，用深度学习和强化学习做了一个老虎和羊的多智体生态模型。我们发现，如果关掉智体的学习能力（比如老虎），它们无法适应新环境，生态系统很快崩溃。

而给智体学习能力之后，模型出现的现象，与 LV 模型中猞猁抓兔子的动态现象十分相似。模拟出来的多智体生态，和自然世界的生态圈都遵循一种动态的平衡，就好比多个 AI 智体形成了一个动物种群。这让我们十分惊奇，人工智能体和生物群体可能有许多共同规律。

这个研究很有意思的一点是，我们发现有这样的场景：智体之间可以联合在一起优化某一个目标，或者单独优化它们自己的目标。当出现这两种情况的时候，作为一个群体，他们就有了内在的规律。如果把这些规律找到，对于我们去开发一些新的模型、新的计算机人工智能的方法，是非常有帮助的。

问题 2：缺乏对多智体环境控制的研究

案例 6：宜家

传统强化学习没有深入探索过多智体环境问题，而往往把它作为一个假设前提：要么假设这个环境是不变的，要么假设这个环境有一定的概率在不断变化。而这个概率是不变的（not designable），意味着无法设计这个环境，而是更加适应这个环境。但是实际情况下发现，很多场景下，环境本身也需要一个适应的过程。在宜家的热力图上，我们可以看出谷歌在商场里的活动是非常平均的，这是一个非常好的现象。我们可以开发一个强化学习算法，让环境（商品摆放）根据顾客的变化而变化。鉴于此，我们在 UCL 的团队首创了对多智体环境的控制，并研究如何学习环境的深层因素。

这是一个建筑系教授进行的研究，他做了一个地图模拟人在店铺里面走的情况，根据热力图反馈到铺面设计，来优化用户在这里面待的时间，或者说最大化用户可能消费的情况。

案例 7：分拣机器人

单个智体（机器人）要进行优化，以最快的路径分拣快递包裹。这个环境未必是最优的，我们根据货物的统计特性，设计我把发往南京的包裹通道放在北京旁边还是放在上海旁边。所以环境也需要很好的考量和设计。

案例 8：迷宫

一个人工智体，需要以最快的效率找到出口。而环境知道其智能水平，根据情况来设计迷宫，使得智体有最困难或者最小的概率可以出去。这是一个竞争的关系。

怎么优化呢？你会发现，该系统在两个不同的维度进行。在人工智体的情况下，它会说给定一个环境，我想以最快的效率、最优的策略走出来。当你把这个人工智体学到的东西定住以后，就可以在另外一个维度优化环境：现在这个智体是这样的属性，能不能据此使得环境更困难？这两个维度互相竞争、互相迭代，就可以达到优化的情况。雷锋网雷锋网

第二届 CCF-GAIR 开幕！中国 AI、机器人行业产学研跨界整合进入新时期｜ CCF-GAIR 2017

AAAI主席Subbarao：机器的学习过程与人类不一样 | CCF - GAIR2017

中科院院士谭铁牛：模式识别研究的回顾与展望 | CCF-GAIR 2017

CMU教授金出武雄演讲：户外机器人系统 | CCF-GAIR 2017

雷峰网原创文章，未经授权禁止转载。详情见转载须知。