Dota2冠军OG如何被AI碾压？OpenAI累积三年的完整论文终于放出

　　问耕发自凹非寺
　　量子位出品公众号 QbitAI

　　Team OG，Dota2 世界冠军战队。

　　在人工智能 OpenAI Five 面前，OG 不堪一击。五个人类组成的战队，此前全程毫无悬念地以0:2 败下阵来，两局加在一起，OG 只推掉了两座外塔。

　　不过，这还不是 AI 的巅峰。

　　现在 OpenAI 又训练出了一个全新的 AI，名叫 Rerun。面对碾压 OG 的 OpenAI Five，Rerun 的胜率达到了……呃……98%。

　　听到这个消息，一位推特网友发图明志。

　　主要依靠自学，就能在 Dota2 这么复杂的游戏中称雄，人工智能是怎么做到的？今天，有关于此的答案揭晓。

　　没错，OpenAI 不单发布了 Rerun，还把自己三年多来对于 Dota2 项目的研究，通过一篇论文，正式公布出来。

　　在这篇论文中，OpenAI 解释了整套系统的原理、架构、计算量、参数等等诸多方面的内容。OpenAI 指出通过增加 batch size 和总训练时间等方法，扩展了计算规模，进而表明当今的强化学习技术可以在复杂的电子竞技游戏中，达到超越人类的水平。

　　这些研究，可以进一步应用于各种两个对手持续的零和博弈中。

　　（可能是阅读之后）OG 战队发推：“Wow！这篇论文看起来太棒了！”

　　此情此景，有网友无深情的感叹道：Wow！OG 战队夸了一篇论文好看？真是活久见……

　　这篇论文到底说了什么？

　　我们总结了几个要点。

　　要点一：Dota2 比下围棋更复杂

　　与棋类对弈相比，电子竞技游戏要更复杂。

　　攻克这一难题的关键是，把现有的强化学习系统规模，扩展到前所未有的水平，这耗费了数千块 GPU 和好几个月的时间。OpenAI 为此构建了一个分布式的训练系统。

　　训练中的一个挑战是，环境和代码会不断变化。为了在每次更改后无需从头开始，OpenAI 开发了一套工具，可以在不损失性能的情况下恢复训练，这套工具称为：surgery。

　　每局 Dota2 比赛时长大约 45 分钟，每秒钟会生成 30 帧的游戏画面。OpenAI Five 每 4 帧做出一个动作。国际象棋一局下约 80 步，围棋下一局约 150 步，作为对比，Dota2 打一局，AI 需要“下”大概 20000 步。

　　而且由于战争迷雾的存在，Dota2 中对战的双方，只能看到全盘游戏中的局部情况，其他部分的信息都是隐藏状态。

　　与下围棋的 AlphaGo 相比，打 Dota2 的 AI 系统，batch size 要大 50-150 倍，模型大 20 倍，训练时间长 25 倍。

　　要点二：AI 如何学会打 Dota2

　　人类玩 Dota2 通过键盘鼠标等，实时作出决定。刚才提到，OpenAI Five 每 4 帧做出一个动作，这被称为一个 timestep。每个 timestep 期间，OpenAI 会接收血量、位置等数据。

　　同样的信息，人类和 OpenAI Five 接收的方式完全不同。

　　人工智能系统发出动作指令时，大概可以想成这个样子。

　　AI 背后是一套神经网络。policy (π) 被定义为从观察数据到动作概率分布的函数，这是一个有 1.59 亿个参数的 RNN 神经网络。这个网络主要由一个单层、4096-unit 的 LSTM 构成。

　　结构如下图所示：

　　LSTM 贡献了这个模型中 84% 的参数。

　　选手们的训练，使用的是扩展版的近端策略优化（PPO）方法，这也是 OpenAI 现在默认的强化学习训练方法。这些智能体的目标是最大化未来奖励的指数衰减和。

　　在训练策略的过程中，OpenAI Five 没有用到人类游戏数据，而是通过自我博弈。在围棋、象棋等问题上，也应用了类似的方式训练。

　　其中，80% 的战斗中对手是使用了最新参数的分身，而 20% 的对手是老参数的分身。每经过 10 次迭代之后，新训练出的分身就被标为老前辈。如果当前正训练的 AI 击败了新秀或者老前辈，系统就会根据学习率更新参数。

　　按照 OpenAI CTO 此前的说法，击败 OG 前 OpenAI Five 已经练习了相当于 45000 年 Dota。AI 每天的训练量相当于人类打 180 年游戏。

　　要点三：计算量和超参数

　　训练这么复杂的 AI 系统，肯定要耗费大量的资源。

　　OpenAI 预估了用于优化的 GPU 消耗量，最后的结论，OpenAI Five 的 GPU 计算用量在 770±50~820±50 PFlops/s·days 左右，而今天新提到的、更强的 Rerun，在随后两个月的训练中，GPU 计算量消耗大概是 150 ± 5 PFlops/s·days。