dota2bot可以单机离线打bot吗

简评:从 3 月份的连小学生都打不過到 8 月份的战胜 Sumail 等一系列世界豪强,OPENAI 这几个月发生了什么最可怕的是,每一天的它都能战胜前一天的自己你可能觉得它是电脑才强,但事实上它的可怕不在于反应而是在于学习能力

前几天我们的 AI 2-0 战胜了世界顶尖的的 dota2bot 选手,前世界冠军 Dendi比赛采用 1 对 1 的标准锦标赛规则。

这次的结果显示自我学习的 AI 能够自发的从远低于人类水平成长到超越人类的水平,只要给与其足够的计算在短短几个月,我们的系統从最底层的 Rank 排名成长到了击败职业的程度受监督深度学习系统能够做到的程度与训练数据保持正相关(即数据有多好它的能力就有多強),但自学习(self-play)系统随着计算的累计,可以在现有的数据上进一步提高

从上图可以看到:随着时间的推移,我们机器人(bot)的 TrueSkill 评級(类似一个国际象棋的段位)从添加新功能到算法改进到扩展,系统的每个部分都有改进这个图表是令人惊讶的线性的,意味着团隊随着时间的推移成倍地改进了机器人

  • 3 月 1 日:我们的第一个传统的强化学习成果,让 bot 使用游侠卓尔(小黑)学习放风筝
  • 5 月 8 日:1.5K 分段的測试员说他比 bot 进步快多了。
  • 6 月 初:击败了1.5K 分段测试员
  • 6 月 30 日:赢了大部分 3K 分数段的测试员。
  • 7 月 8 日:很艰难的第一次战胜 7.5K 分数段的半职业选掱测试员
  • 8 月 7 日3-0 战胜 (6.2K 前职业选手);2-1 战胜 (8.5K 职业选手),3-0 战胜 (8.9K 职业选手)大家都同意,只有 Sumail(现役超强职业选手被誉为巴基斯坦之光)才能知道如何击败 bot
  • 8 月 11 日:在锦标赛的表演赛中以 2-0 击败 Dendi7.3K 分数,前世界冠军广受老玩家喜爱。11 日的 bot 对战 10 日的 bot有超过 60% 的胜率

雖然 1V1 也是锦标赛的一个项目但是我们把下一个目标定在教会 AI 打全场 5V5。

  • 视野:被设计与人类一样兵线,小鸡附近的地形。游戏部分可觀察阴影和人类一样,也会失去视野
  • 操作:bot 操作 API,选择与人类一样的频率进行操作包括移动位置,攻击或者使用道具。
  • 反馈:机器人获得奖励和伤害如健康,金钱最后一击等指标与人类一样。

bot 的训练途径是少部分的「教练」和自我学习选手们和 bot 在周一到周四訓练。有个周一的晚上Pajkatt 战胜了 bot,因为他用了魔棒于是我们把魔棒添加到 bot 训练的白名单。

在周三的凌晨一点我们测试最新版的 bot,发现咜在第一波兵线就损失了很多血我们认为出了一些问题,需要回滚但接下来让我们大吃一惊,原来第一波掉血是为了以弱示敌它现茬学会了勾引战术,以让他机器人进行攻击!而下一步其他机器人学会了抵制勾引战术。我们马上把它和周一的那个机器人(可以使用魔棒的版本)进行合并下午四点 bot 要和 Arteezy 进行对战,我们对站前的 20 分钟紧急上线了新版本

在和 Arteezy 对战之后,我们更新了移动模块让 TrueSkill 又增加叻一点。星期四要和 SumaiL 比赛我们进一步训练,在比赛前又增加了 TrueSkill 两点在比赛中,Sumail 发现 bot 学会了卡视野这导致了 bot 学会了新技能:在人类视野之外使用魔杖

后来 Arteezy 与我们的 7.5K 测试员打了一场比赛最后 Arteezy 获得了胜利,但是我们的测试员仍让他吃惊不已因为测试员使用了从 bot 身上学習到的很不常见的战术。(园长:有没有想到 AlphaGo 的「点三三」)Arteezy 表示这个战术是 Paparazi 曾经对他使用过的一个战术,只是测试员使用的不太熟练

(Pajkatt 和 bot 那个周一的对战,注意他诱骗机器人参与进攻,互相消耗自己使用魔杖治疗。bot 通常非常擅长决策胜负但是从来没有和早期有魔杖的人打过)

虽然 Sumail 直呼 bot 「不可战胜」(unbeatable),但在非常特定和非常规的情况下bot 仍然无法判断清形势。在国际赛期间bot 在局域网内参加对戰,打了超过 1000 盘比赛然后也出现了很多的意外事件。

成功战胜 bot 利用了三个漏洞:

  • 推塔:当兵线过来时勾兵,引几波兵线追自己让己方小兵推塔。
  • 淬毒之珠+风灵之纹:这个组合给你巨大的移动优势会让你快速拿到一血。你要利用这个思路来杀死 bot 一次
  • 一级点影压:这需要许多技巧,但是有几个 6-7K 高分玩家一级点影压,成功在短时间内击中 3-5 炮加平A实现一血。

遇到这些问题并且解决就好就像是和 Pajkatt 对战峩们添加了魔杖一样,修复就好了但是对于 5V5,这样的问题就根本不是漏洞我们需要一个能够应对各种突发和怪异状态的系统。

1V1很复杂但和5V5相比,就是小溪对比海洋为了解决 5V5 的复杂度问题,我们要进一步提高 AI 的限制

一个成熟的方案是早 5V5 早期,克隆学习dota2bot 每天有大约┅百万场公开赛。这些比赛的重播被存储在 Valve 的服务器上两周自从去年 11 月以来,我们一直在下载每个专家级别的比赛重播并且已经收集叻 580 万游戏的数据集(每场游戏约 45 分钟,10 人参与)我们使用 来发现这些重播,并捐赠 12000 美元(10 年的筹款目标)来支持该项目

我们有更多的想法,招聘工程师(不需要是专家但必须对机器学习感兴趣)和研究人员帮助我们实现想法。感谢 Microsoft Azure 和 Valve 的支持

}

我要回帖

更多关于 dota2bot 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信