深度强化学习从入门到大师：以刺猬索尼克游戏为例讲解PPO（第六部分）

本文作者：AI研习社-译站

2019-01-16 10:35

导语：几周前，OpenAI在深度强化学习上取得了突破性进展。

本文为 AI 研习社编译的技术博客，原标题：
Proximal Policy Optimization (PPO) with Sonic the Hedgehog 2 and 3
作者 | Thomas Simonini
翻译 | 安石徒校对 | 斯蒂芬•二狗子
审核 | 邓普斯•杰弗整理 | 菠萝妹
原文链接：
https://towardsdatascience.com/proximal-policy-optimization-ppo-with-sonic-the-hedgehog-2-and-3-c9c21dbed5e

深度强化学习从入门到大师：以刺猬索尼克游戏为例讲解PPO

（第六部分）

深度强化学习从入门到大师：以刺猬索尼克游戏为例讲解PPO（第六部分）

几周前，OpenAI在深度强化学习上取得了突破性进展。由5个智能体的组成的人工智能团队OpenAI five击败了现实中的DOTA2玩家。但遗憾的是，该人工智能团队输掉了随后的第二场比赛。

深度强化学习从入门到大师：以刺猬索尼克游戏为例讲解PPO（第六部分）

Dota2

这个突破性进展的取得得益于强大的硬件支持和 PPO 算法（近端策略优化 Proximal Policy Optimization）。

PPO的核心思想是避免采用大的策略更新。为此，我们采用变化率表明新旧策略的不同，并缩减该变化率在0.8到1.2之间以保证策略更新不大。

此外，PPO的另一项创新是在训练智能体的k个epochs过程中使用了小批量梯度下降法。你可以读我们之前已经实现的这篇文章 A2C with Sonic The Hedgehog。

今天，我们将深入了解PPO结构，并应用PPO来训练智能体学习玩刺猬索尼克系列1,2,3。

但是，如果想要理解好PPO，你首先需要掌握A2C（建议先阅读上一篇文章简单介绍A2C （第五部分））

策略梯度（PG）目标函数存在的问题

曾记否，在学习策略梯度时，我们了解了策略目标函数（或策略损失函数）。

深度强化学习从入门到大师：以刺猬索尼克游戏为例讲解PPO（第六部分）

PG的思想是采用上面的函数一步步做梯度上升（等价于负方向的梯度下降）使智能体在行动中获取更高的回报奖励。

然而，PG算法存在步长选择问题（对step size敏感）：

步长太小，训练过于缓慢
步长太大，训练中误差波动较大

深度强化学习从入门到大师：以刺猬索尼克游戏为例讲解PPO（第六部分）

面对训练过程波动较大的问题时，PPO可以轻松应对。

PPO近端策略优化的想法是通过限定每步训练的策略更新的大小，来提高训练智能体行为时的稳定性。

为了实现上述想法，PPO引入了一个新的目标函数“Clipped surrogate objective function”（大概可以翻译为：裁剪的替代目标函数），通过裁剪将策略更新约束在小范围内。

裁剪替代目标函数 Clipped Surrogate Objective Function

首先，正如我们在stackoverflow中的解释，我们不采用智能体行动的对数概率logπ(a|s)（vanilla policy gradient method ）来跟踪智能体行动的效果，而是使用当前策略下的行动概率(π(a|s))除以上一个策略的行动概率 (π_old(a|s))的比例：

深度强化学习从入门到大师：以刺猬索尼克游戏为例讲解PPO（第六部分）

摘自PPO论文：PPO paper

如上所示，rt(θ)表明了新旧策略间概率比：

若 rt(θ)>1，则当前策略下的行动比原先策略的更有可能发生。
若 rt(θ)⊂(0,1)，则在当前策略下行动发生的概率低于原先的。

据此，新的目标函数可如下所示：

深度强化学习从入门到大师：以刺猬索尼克游戏为例讲解PPO（第六部分）

摘自PPO论文：PPO paper

但是，如果你当前策略的行动的可能性远高于之前策略的情况下，此时不对目标函数进行约束，那么 rt(θ)的值就会非常大，还会导致PG采取可能破坏策略的大梯度更新。

因此，需要对目标函数进行约束，惩罚那些导致rt(θ)远离1的变化（本文中比率仅允许在0.8和1.2之间），这样可以确保不会发生大的策略更新。

为此，我们有两个解决方案：

TRPO（Trust Region Policy Optimization，置信区间策略优化）采用的KL散度来约束策略更新（注：使用目标函数之外的KL散度，来约束需要更新的策略数目，以保证梯度单调上升；此外还有其他方法，例如ACER,Sample Efficient Actor-Critic with Experience eplay）。但是TRPO这种方法使用起来过于复杂，且耗费更多的计算时间。
使用PPO优化的裁剪替代目标函数。

深度强化学习从入门到大师：以刺猬索尼克游戏为例讲解PPO（第六部分）