启元世界获 NeurIPS 2018 多智能体竞赛Learning组冠军，决策智能平台价值凸显

本文作者：杨晓凡

2018-12-21 18:16

专题：NeurIPS 2018

导语：让强化学习决策系统落地

雷锋网 AI 科技评论按：近日，国际人工智能顶级学术会议 NeurIPS 2018 顺利落幕。八千多位来自全世界的人工智能研究人员齐聚加拿大蒙特利尔，讨论分享过去一年全世界在人工智能的各个领域的最新进展，该会议举办了一系列竞赛来鼓励学术界和工业界一起解决最有挑战性的人工智能难题。作为人工智能领域历史最悠久的学术会议之一，会议成果被视作人工智能领域的研究「风向标」。（雷锋网 AI 科技评论正会报道文章见这里）

其中，由谷歌大脑、Facebook、牛津大学及在游戏AI界久负盛名的纽约大学等机构联合举办的多智能体竞赛——炸弹人团队赛（The NeurIPS 2018 Pommerman Competition）尤其引人瞩目。来自中国启元世界的彭鹏博士、中科院计算所助理研究员庞亮博士和北师大的袁钰峰组成的赛队，与美国、欧洲、日本、中国的24支一流队伍进行了激烈角逐，最终基于启元决策智能平台训练的 Navocado 双智能体能力稳定提升，夺得了比赛 Learning 组冠军，展现了来自中国的决策智能团队具备的世界级技术实力。

启元世界是一家2017年成立的以认知决策智能技术为核心的公司，由前阿里、Netflix、IBM 的科学家和高管发起，并拥有伯克利、CMU 等知名机构的特聘顾问。团队核心能力以深度学习、强化学习、超大规模并行计算为基础，拥有互联网、游戏等众多领域的成功经验。

决策智能目前是一个世界级的技术难题，决策过程也是人脑中最复杂的一种功能。由于在游戏、交通、电力等领域具备极大的应用前景，决策智能近年也成为全球人工智能研究的热点，DeepMind、Facebook、OpenAI、微软、亚马逊等科技巨头都成立了实验室进行相关研究。相较于单智能体，多智能体博弈的难度更是指数级增加。此次 NeurIPS 多智能体竞赛是 NeurIPS 会议上首次开设多智能体竞赛，将多智能体协作、非完全信息博弈以及持续学习等关键问题浓缩到炸弹人这款游戏中，鼓励全世界优秀的研发人员一起参加解决技术挑战。

此次 NeurIPS 多智能体竞赛采用激烈双淘汰机制（Double Elimination），25 支参赛队分别提供 2 个智能体参加 2v2 对抗赛。参赛队伍的每个智能体初始都被困在一个封闭的区间中，智能体只有炸开附近的木箱才能进去其他区域；而且智能也只具有整个地区的一部分视野。在几乎所有障碍物都被清理干净后，智能体进入到对抗阶段，所有智能体都可以自由地在全局活动，这个阶段智能体的主要目标就是炸掉对手。

启元世界获 NeurIPS 2018 多智能体竞赛Learning组冠军，决策智能平台价值凸显

图1：多智能体竞赛－炸弹人团队赛

竞赛过程中需要智能体完成：1）清除障碍物，2）躲避自己的炸弹火焰，3）收集装备，4）躲避自己和其他人的炸弹火焰，5）放炸弹杀死对手，6) 避免放炸弹杀死队友。整个过程，对智能体有效甄别和提取有效信息，同时对未知信息进行推理和假设，以及多智能体协作都提出了很高的技术要求。

启元决策智能平台训练的 Navocado 双智能体在比赛中的部分表现如下图：

启元世界获 NeurIPS 2018 多智能体竞赛Learning组冠军，决策智能平台价值凸显

同队炸弹人联手，在对手的两侧放炸弹围堵，将其困在中间地带后摧毁对手

启元世界获 NeurIPS 2018 多智能体竞赛Learning组冠军，决策智能平台价值凸显

炸弹人通过灵活的移动及时躲避炸弹爆炸

启元世界获 NeurIPS 2018 多智能体竞赛Learning组冠军，决策智能平台价值凸显

炸弹人主动将炸弹朝对手方向踢出，精确击溃对手

启元世界获 NeurIPS 2018 多智能体竞赛Learning组冠军，决策智能平台价值凸显

炸弹人学会准确的炸箱子，并且通过最短路径寻路吃增强药

每个赛队线下有 2 个月的时间进行模型训练。最终基于启元决策智能平台训练的 Navocado 战胜了来自加拿大的 Skynet，拿下 Learning 组冠军。Skynet 的团队来自加拿大近百人规模的科技公司 Borealis.ai。从对战过程来看，启元的 Navocado 智能体的主动进攻能力明显强于对手。从 Skynet 在官网公开的实现方案来看，Skynet 模型在决策过程中加入了很多人工干预（比如限制炸弹人不能往火焰里走），这和 Navocado 模型在整个训练和决策过程中不加人工干预、自主学会各项技能的方式也有较大的差距。

启元世界获 NeurIPS 2018 多智能体竞赛Learning组冠军，决策智能平台价值凸显

图2：Navocado智能体持续训练过程中的效果提升曲线

启元从 2017 年起打造的决策智能平台在这次赛事夺冠的智能体训练中起到了关键作用。强化学习作为决策智能的核心技术，也是极具挑战的一种机器学习方法。由于强化学习涉及到的链路很长，而强化学习算法本身对超参十分敏感，学术界中各人不同的实现或配置都很容易导致出现训练结果不可复现的现象。强化学习技术在可复现性、可复用性和鲁棒性方面存在着挑战。

借助平台化的力量，启元决策智能平台运用强化学习解决复杂决策问题，证明了强化学习的可行性。启元决策智能平台搭建了支持多智能体博弈的基础架构，能够通过竞技的方式实现多智能体持续学习的能力。平台还支持包括自动化资源调度和自动调参的元学习，使得模型的训练更加高效。

启元世界彭鹏博士介绍，「启元团队对强化学习这个领域都很有 Passion。这次我们在 NeurIPS 多智能体竞赛夺冠的智能体，在每个阶段的训练过程没有人工干预，学习曲线非常漂亮，进一步验证了这套体系的有效性和鲁棒性，验证了强化学习技术的价值。」

从平台架构设计到底层实现上，启元都做了很多细致的工作，力求在包括环境模拟、模型预估和训练等各个决策智能相关的环节都做到完美。启元赛队基于决策智能平台分阶段设计了奖励机制以及调整超参。在使用启元决策智能平台的过程中，赛队可以快速地调度所需资源进行任务部署，配置对战所需的智能体，并且在训练过程实时观察不同模型的对战情况和胜率曲线，从而做出最快的调整。

启元世界获 NeurIPS 2018 多智能体竞赛Learning组冠军，决策智能平台价值凸显

图3：启元决策智能平台架构

在此次 NeurIPS 多智能体竞赛中，启元决策智能平台提供了三大助力：

第一，支持智能体持续学习的能力。

持续学习的能力是智能体训练中关键的一环。在训练阶段，炸弹人竞赛中的智能体需要在学习新技能的过程中保留过去学会的技能，才能达到很高的水平。启元决策智能平台通过智能体群体匹配竞技的方式实现「自然选择」，从而达到持续学习的效果。在竞技过程中，强者留存，弱者被淘汰。在弱者被淘汰之后，空出来的位置被强者的克隆体代替，而强者的克隆体则根据新的超参设定持续进化。在固定计算资源预算的情况下，启元决策智能平台通过这套机制在探索新强者 (exploration) 和深挖旧强者（exploitation）之间平衡对计算资源的使用情况。

第二，支持复杂场景的多智能体联合训练。

在多智能体博弈问题中，不同智能体之间的相互克制较为常见，其收敛可能性极为复杂。在炸弹人竞赛中，不同队伍的智能体风格迥异，有的善攻，有的善守。基于「鲶鱼效应」的思想（指通过引入强者，激发弱者变强的效应），启元决策智能平台在训练初期引入基于规则的高阶对手，激发初期较弱的智能体在与强者的对决中学会各种基本技能，迅速提升变强；随着训练阶段的深入，启元决策智能平台同时训练多个智能体，使其在激烈的相互对抗中完善自我。

第三，支持基于私有云集群的大规模、高并发的模拟和大规模训练。

启元决策智能平台将架构图中所示的多个模块进行组件化，并封装到了容器中。通过云端自动化的方式管理数百 CPU 以及 GPU 资源并实现容器编排，降低了调度数十个炸弹人训练任务的成本。大规模、高并发的模拟计算以及大规模的训练同时在私有云集群中进行。另外，启元决策智能平台提供分布式存储方案，并配置成共享模型池，为炸弹人智能体模型群体的持久化和共享提供支持。

启元决策智能平台 v0.8 版本目前已用于游戏、网络智能及仿真等场景中。基于为客户提供的高附加值服务，启元世界在 2018 年商业化上小试牛刀，即已取得不错的营收。2019 年，启元世界计划发布第一版启元决策智能平台型产品，为更多行业客户、终端用户带去高体验的服务。

关于此次竞赛方案的更多细节，启元世界也撰写了技术报告，感兴趣的读者可以参见 https://arxiv.org/abs/1812.07297。

基于监督学习的智能决策系统常见，但基于强化学习的智能决策系统不常见。雷锋网 AI 科技评论很感兴趣他们是如何看待并应对强化学习固有的一系列技术挑战的。后续报告请继续关注我们。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

1人收藏

专题

NeurIPS 2018

本专题其他文章

杨晓凡

读论文为生

日常笑点滴，学术死脑筋

发私信

当月热门文章