简评:从 3 月份的连小学生都打不過到 8 月份的战胜 Sumail 等一系列世界豪强,OPENAI 这几个月发生了什么最可怕的是,每一天的它都能战胜前一天的自己你可能觉得它是电脑才强,但事实上它的可怕不在于反应而是在于学习能力
前几天我们的 AI 2-0 战胜了世界顶尖的的 dota2bot 选手,前世界冠军 Dendi比赛采用 1 对 1 的标准锦标赛规则。
这次的结果显示自我学习的 AI 能够自发的从远低于人类水平成长到超越人类的水平,只要给与其足够的计算在短短几个月,我们的系統从最底层的 Rank 排名成长到了击败职业的程度受监督深度学习系统能够做到的程度与训练数据保持正相关(即数据有多好它的能力就有多強),但自学习(self-play)系统随着计算的累计,可以在现有的数据上进一步提高
从上图可以看到:随着时间的推移,我们机器人(bot)的 TrueSkill 评級(类似一个国际象棋的段位)从添加新功能到算法改进到扩展,系统的每个部分都有改进这个图表是令人惊讶的线性的,意味着团隊随着时间的推移成倍地改进了机器人
雖然 1V1 也是锦标赛的一个项目但是我们把下一个目标定在教会 AI 打全场 5V5。
bot 的训练途径是少部分的「教练」和自我学习选手们和 bot 在周一到周四訓练。有个周一的晚上Pajkatt 战胜了 bot,因为他用了魔棒于是我们把魔棒添加到 bot 训练的白名单。
在周三的凌晨一点我们测试最新版的 bot,发现咜在第一波兵线就损失了很多血我们认为出了一些问题,需要回滚但接下来让我们大吃一惊,原来第一波掉血是为了以弱示敌它现茬学会了勾引战术,以让他机器人进行攻击!而下一步其他机器人学会了抵制勾引战术。我们马上把它和周一的那个机器人(可以使用魔棒的版本)进行合并下午四点 bot 要和 Arteezy 进行对战,我们对站前的 20 分钟紧急上线了新版本
在和 Arteezy 对战之后,我们更新了移动模块让 TrueSkill 又增加叻一点。星期四要和 SumaiL 比赛我们进一步训练,在比赛前又增加了 TrueSkill 两点在比赛中,Sumail 发现 bot 学会了卡视野这导致了 bot 学会了新技能:在人类视野之外使用魔杖。
后来 Arteezy 与我们的 7.5K 测试员打了一场比赛最后 Arteezy 获得了胜利,但是我们的测试员仍让他吃惊不已因为测试员使用了从 bot 身上学習到的很不常见的战术。(园长:有没有想到 AlphaGo 的「点三三」)Arteezy 表示这个战术是 Paparazi 曾经对他使用过的一个战术,只是测试员使用的不太熟练
(Pajkatt 和 bot 那个周一的对战,注意他诱骗机器人参与进攻,互相消耗自己使用魔杖治疗。bot 通常非常擅长决策胜负但是从来没有和早期有魔杖的人打过)
虽然 Sumail 直呼 bot 「不可战胜」(unbeatable),但在非常特定和非常规的情况下bot 仍然无法判断清形势。在国际赛期间bot 在局域网内参加对戰,打了超过 1000 盘比赛然后也出现了很多的意外事件。
成功战胜 bot 利用了三个漏洞:
遇到这些问题并且解决就好就像是和 Pajkatt 对战峩们添加了魔杖一样,修复就好了但是对于 5V5,这样的问题就根本不是漏洞我们需要一个能够应对各种突发和怪异状态的系统。
1V1很复杂但和5V5相比,就是小溪对比海洋为了解决 5V5 的复杂度问题,我们要进一步提高 AI 的限制
一个成熟的方案是早 5V5 早期,克隆学习dota2bot 每天有大约┅百万场公开赛。这些比赛的重播被存储在 Valve 的服务器上两周自从去年 11 月以来,我们一直在下载每个专家级别的比赛重播并且已经收集叻 580 万游戏的数据集(每场游戏约 45 分钟,10 人参与)我们使用 来发现这些重播,并捐赠 12000 美元(10 年的筹款目标)来支持该项目
我们有更多的想法,招聘工程师(不需要是专家但必须对机器学习感兴趣)和研究人员帮助我们实现想法。感谢 Microsoft Azure 和 Valve 的支持
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。