商汤组了「最强大脑」局,正儿八经解释为啥搞起电竞AI

内容速读:

金磊 发自 凹非寺量子位 报道 | 公众号 QbitAI前不久,《星际争霸2》虫王iA周航加入商汤科技,担任AI研究员。而商汤作为一家以计算机视觉技术著称的公司,这一步棋又意在何为?近日,在世界人工智能大会的圆桌论坛《从电竞到AI》中,商汤道出了其目的:入局电竞,发力决策型 AI。这些年,有关「电竞AI」的那点事先来盘一下「电竞 AI」这件事情。电竞 AI 领域另一个比较火的游戏是 Dota2,OpenAI 的 Rerun 和 OpenAI Five,是这款游戏中的 AI 佼佼者。

金磊 发自 凹非寺
量子位 报道 | 公众号 QbitAI

前不久,《星际争霸2》虫王iA周航加入商汤科技,担任AI研究员。

堪称电竞职业玩家「转型最成功」的案例之一。

而商汤作为一家以计算机视觉技术著称的公司,这一步棋又意在何为?

商汤组了「最强大脑」局,正儿八经解释为啥搞起电竞AI

近日,在世界人工智能大会的圆桌论坛《从电竞到AI》中,商汤道出了其目的:

入局电竞,发力决策型 AI

这些年,有关「电竞AI」的那点事

先来盘一下「电竞 AI」这件事情。

许多现实生活中的 AI 应用,都涉及到多个智能体在复杂环境中的相互竞争和协调合作。

针对商汤入局的星际争霸,是一种即时战略(RTS)游戏的研究,也就是解决这个大问题过程中的一个小目标。

换而言之,类似星际争霸的挑战,实际上就是一种多智能体强化学习算法的挑战。

DeepMindAlphaStar,可以说是在 AI 挑战星际争霸过程中,发展较为成熟的一个。

商汤组了「最强大脑」局,正儿八经解释为啥搞起电竞AI

去年其研究还登上了顶级期刊 Nature —— AlphaStar已经超越了99.8%的人类玩家,在神族、人族和虫族三个种族上都达到了宗师(Grandmaster)级别。

AlphaStar学会打星际,还是靠深度神经网络,这个网络从原始游戏界面接收数据 (输入) ,然后输出一系列指令,组成游戏中的某一个动作。

至于训练,则是通过监督学习和强化学习来完成的。

而且,智能体的学习目标会适应环境不断改变。

神经网络给每一个智能体的权重,也是随着强化学习过程不断变化;而不断变化的权重,就是学习目标演化的依据。

电竞 AI 领域另一个比较火的游戏是 Dota2,OpenAI 的 RerunOpenAI Five,是这款游戏中的 AI 佼佼者。

商汤组了「最强大脑」局,正儿八经解释为啥搞起电竞AI

比起星际争霸2需要操纵甚至上百个单位,Dota2这款5V5游戏,只需要操纵5个智能体,但是操作精准度和策略复杂度要高一些。

OpenAI Five 是 OpenAI 首先开发出来的电竞 AI,和人类顶级团队——世界冠军 OG 的较量中,以2:0的明显优势碾压。

而后,OpenAI 又开发一出 Rerun,胜率再次翻新,达到了98%

这些 AI 的背后同样是一套神经网络。

根据 OpenAI 发布的研究来看,policy (π) 被定义为从观察数据到动作概率分布的函数,这是一个有1.59亿个参数的RNN神经网络。这个网络主要由一个单层、4096-unit的LSTM构成。

商汤组了「最强大脑」局,正儿八经解释为啥搞起电竞AI

选手们的训练,使用的是扩展版的近端策略优化(PPO)方法,这也是OpenAI现在默认的强化学习训练方法。这些智能体的目标是最大化未来奖励的指数衰减和。

在训练策略的过程中,OpenAI Five没有用到人类游戏数据,而是通过自我博弈。

与 Dota2 类似的电竞 AI ,还有国内的手游《王者荣耀》——腾讯绝悟 AI

商汤组了「最强大脑」局,正儿八经解释为啥搞起电竞AI

绝悟的 1v1 版本首次露面,是在2018年的 KPL 秋季总决赛上,而后在去年8月份,在5v5比赛中击败了人类职业战队,实力不容小觑。

而有关绝悟的技术细节,在去年年底时,腾讯在一篇入围AAAI 2020的论文中也有所披露。

商汤组了「最强大脑」局,正儿八经解释为啥搞起电竞AI

AI的整体架构一共分为4个模块:强化学习学习器(RL Learner)、人工智能服务器(AI Server)、分发模块(Dispatch Module)和记忆池(Memory Pool)。

商汤组了「最强大脑」局,正儿八经解释为啥搞起电竞AI

研究人员在论文中指出,基于这样的方法训练一个英雄,使用48个P40 GPU卡和18000个CPU 内核,训练一天相当于人类打500年,训练30个小时就能达到王者段位水平,70个小时比肩职业玩家。

电竞AI这件事,虫王iA有话说

在昨天的世界人工智能大会中,「从电竞到AI」的圆桌成了大会中的亮点,与会嘉宾包括:

  • 曾获得8次《星际争霸II》全国比赛冠军的中国顶尖选手、商汤科技研究员周航
  • 被称为“脑王”的《最强大脑》2019全球总冠军、商汤科技见习研究员郑林楷
  • 商汤科技副总裁、商汤研究院副院长闫俊杰博士。
  • 商汤科技研发执行总监石建萍博士。

如此阵容,被网友戏称「脑王论剑」。

而堪称「转型最成功」的电竞玩家周航,发表了他的看法:

我想要自己训练一套AI系统,战胜以前没有战胜过的对手。

商汤组了「最强大脑」局,正儿八经解释为啥搞起电竞AI

在量子位的采访中,作为与 AI 直面交锋过的「亲身经历者」,周航表示:

在星际这样一个充了满尔虞我诈的复杂环境,AI 在决策上还是太单纯了。

虽然 AI 在操作上有一定优势,但是对整个游戏没有建立起抽象的认知,容易被欺骗,还有很大提升空间。

但许多人对于类似星际2这样的电竞AI,提出了「公平性」方面的质疑——毕竟机器在某些方面的能力,是远远超越人类的。

对此,周航从「操作」和「信息」两方面做出看法:

在 AI 的操作方面,我个人觉得可以用一个简单的方式去衡量:让这一项目最顶尖的选手,尝试去模仿 AI 的操作,如果人能模仿成功那就是公平的。

而在信息方面,AI 跟人类能获得的信息需要保持一致。

具体到星际上来说,星际每一步是45ms,人做不到在这么短时间观察信息并且做出反应,但是 AI 可以,限制 AI 的操作频率是有必要的。

另外,AI 和人类在与游戏的交互方式上有很大不同。人是通过图像和声音了解的整个地图的局部信息,但是 AI 目前通过星际的游戏接口获取的信息会比人更加全面,这方面也需要加以限制。

当然,目前的电竞 AI 还无法做到100%碾压人类,对于其弱点,周航认为:

目前,星际AI 的弱点还是很明显的。

星际的整个状态空间太大,AI 在训练过程中,有很多的局面都是没经历过的,在这些罕见局面就会出现不会应对的情况,所以在与 AI 对战的过程中,只要你打的天马行空、不按套路出牌就行了。

因此,也可以发现电竞 AI 研究的难点和重点,一方面是增强 AI 的泛化能力,做到像人类一样抽象地思考问题;另一方面是希望能够超越人类的认知,做出比人类更优的决策。

除此之外,对于决策AI,前「脑王」郑林楷也坦言:

其实人做决策经常靠的是直觉,而这方面 AI 仍有很多进化空间。

最后,周航对于电竞 AI 发出了希冀:

我希望做到的是从 AI 模仿人类出发,再到人类去模仿它;我希望AI真正拓展人类的认知,拓宽人类的想象力

入局电竞,发力「决策型AI」

不难看出,近几年的电竞 AI 呈现越发火热的趋势。

其实在这背后,各家的发力点都是较为一致的,那就是「决策型 AI」。

那么,问题就来了,决策 AI 为什么会受到如此重视,就连深耕计算机视觉的商汤科技也要入局?

在量子位与商汤研究院副院长闫俊杰的专访中,我们得到了一些答案。

过去几年时间中,商汤在计算机视觉的感知层面做了大量的技术积累。通过感知能力,解析了大部分的图片和视频,一定程度上提高了行业的智能化和自动化程度。

但随着感知的能力越来越强,信息的维度越来越高,这就为运营、控制、决策类的问题的提升带来了更多的可能性,但是要求也越来越高。

例如交通的信号灯控制、车辆的调度和管理、封闭空间人流的优化、大规模活动时人力的调度等等。

而在这种情况,决策型 AI 便起到了关键作用,正如闫俊杰所说:

这些问题已经超越了人,甚至专家的能力,需要决策型的AI提供相关辅助,从而走通最终的价值闭环。

但要从感知型 AI 转型为决策型 AI,所面临的问题也是相当困难。

  • 一个问题是现在的方法比较依赖在环境中进行大量的探索和验证,也就是可以几乎无限的试错。但是真实的环境往往很难提供类似的机会。
  • 另外一个问题是可解释性,实际的系统很难完全依赖于一个黑盒的系统,而需要人能进行有效的干预来提供系统的可靠性,这就需要AI决策能进行一些解耦。

而且,在决策型 AI 的研究和应用方面,国外整体还处于更加领先的状态,正如 DeepMind 和 OpenAI 的研究。

那么,在如此「内忧外患」的情况下,商汤又该如何下好「入局电竞 AI」这步棋呢?

闫俊杰表示:

具体的做法跟我们做计算机视觉的思路类似

初期跟不同行业头部客户一起迭代,在满足客户需要的前提下,逐渐完善技术框架,提高技术框架的泛化性能,并进一步用有限的人力服务更多的客户。

而商汤入局决策型 AI,拥有得天独厚的优势——场景和人才。

首先,商汤在前期计算机视觉等技术落地的过程中,已经积累了众多的客户和真实场景,这些客户对决策型AI深化落地有了一定的接受度和预期。

也正如商汤科技研究总监石建萍所介绍,自动驾驶就是一个很好的应用场景。

决策型AI可以用于自动驾驶的驾驶策略,包括三个层面:行为层、规划层、以及控制层。

行为层面,包括是否要换道、是否要减速等;规划层面,主要为本车确定可行驶路线;控制层面,则直接为本车输出油门刹车、方向盘指令。

在仿真环境中,可以为他车、人等交通参与者的行为进行模拟,尤其是在与本车产生交互的场景中(例如本车汇入车流),从而帮助更好地在仿真中验证本车自动驾驶性能。

另外一方面的优势便是人才。

商汤在前几年储备了大量的AI领域的人才,有完善的研发体系和资源,来支撑重点问题的攻关。

最后,闫俊杰对决策型 AI 给出了一个预测:

总体上我们相信,决策型AI的发展会类似几年前计算机视觉领域。

算法效果上每年有指数级别的提升,逐渐能够突破使用的红线,在一两个领域打开局面,然后开始更多的下沉和与行业深入结合。

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

相关推荐

“四强真的很满足了”,张大仙佩服狼队的韧性,完全不为XYG担心

作为这个赛季最强的两大战队,他们之间的交手,真的是吸引太多人的围观了,就连虎牙王牌主播张大仙也是来了,要知道,以前张大仙可是只会围观XYG的比赛,这一次前来围观,也是有探查敌情的原因吧,搞不好XYG能够晋级到败者组决赛呢,说不准的,知彼知己才能百战百胜。对此,张大仙心态很不错,直言,四强已经真的很满...

鏖战45分钟,TTG击败XYG,后期虞姬真强,张大仙直呼:太累了

KPL精彩赛事依旧在企鹅电竞火热进行中,这一次是TTG和XYG的对决,现在只要有XYG的比赛,那就有热度,都有种御三家的感觉了。不过现在的XYG有点难过了,在S组真的太难了,先打E星,再打狼队,现在又要打TTG,张大仙也是直呼这就是地狱模式,没有办法,不过起码来到S组了,好好享受比赛就行了。在大后期...

鏖战45分钟,TTG击败XYG,后期虞姬真强,张大仙直呼:太累了

KPL精彩赛事依旧在企鹅电竞火热进行中,这一次是TTG和XYG的对决,现在只要有XYG的比赛,那就有热度,都有种御三家的感觉了。不过现在的XYG有点难过了,在S组真的太难了,先打E星,再打狼队,现在又要打TTG,张大仙也是直呼这就是地狱模式,没有办法,不过起码来到S组了,好好享受比赛就行了。在大后期...

TheShy掏出肉装奥恩!iG险胜FPX保留晋级世界赛希望

北京时间8月29日,两大世界冠军——iG、FPX在冒泡赛败者组展开了争夺,输掉的一方直接无缘S10,双方都不容有失。在大战了五局之后,iG以3:2的大比分成功战胜FPX,保留了挺进S10的希望,而S9世界冠军FPX则在今日黯然离场!接着iG中野辅三人入侵FPX野区,双方打出一换一。随后iG先行站位,...

XYG在S组未尝一胜,迎来三连败,生死局拿出西施辅助,很拼

另外一边,S组就要冲击胜者组,对于XYG和TTG来说,S组第三轮首胜都没有拿到,这点太难受了,胜者组都快没有希望了,此战对于双方来说,都是不能输的。也许这一把拉锯战赢了之后,TTG选手心态上更有优势了,在生死局中,TTG可是很快就拿下了XYG,也是迎来了第三轮首胜。其实XYG也是很拼了,最后生死局中...

LGD大鹅击败Hero晋级成功,巅峰对决BP太精彩,黄忠绝了

11月29日,KPL赛事精彩依旧在虎牙直播火热进行中,这一次赛程来到了败者组的第三轮大战,这是LGD大鹅和Hero的对决,都清楚的,双方心里可是都憋着一股气的,对于Hero来说,本来胜者组是自己的位置,最后被反超了,很难受,就想这一场打回来。正是因为双方都极度渴望胜利,所以这场对决真的是太精彩了,都...

TTG击败XYG拿下首胜,芈月打通关,西施辅助没用,张大仙沉默不语

苦瓜原创,翻版必究!一边是新冲上来的XYG,一边是老牌强队TTG,这场焦点之战可是备受关注,张大仙也是早早就准备好了,全程围观比赛,只为给XYG加油。输掉比赛之后,张大仙也是沉默不语,心情肯定是不好的,毕竟首胜还没有拿到,虽说一直表示进S组就满足了,但是谁不想继续赢呢,只能说,S组真...

TTG击败GK晋级四强,百兽关羽拼命在C,月光:德服纪录片看哭了

KPL精彩赛事依旧在企鹅电竞火热进行中,这一次是TTG和GK的对决,对于双方来说,这场胜利都是必须拿下的,GK已经用了一次复活甲了,毕竟胜者组掉下来的战队,赛前预测中,企鹅电竞月光和瓶子都是看好GK会拿下最后的胜利,也能理解,毕竟GK的实力确实很强,而且教练也是有点东西的。但是这一次,TTG从败者组...

TTG击败GK晋级四强,百兽关羽拼命在C,月光:德服纪录片看哭了

KPL精彩赛事依旧在企鹅电竞火热进行中,这一次是TTG和GK的对决,对于双方来说,这场胜利都是必须拿下的,GK已经用了一次复活甲了,毕竟胜者组掉下来的战队,赛前预测中,企鹅电竞月光和瓶子都是看好GK会拿下最后的胜利,也能理解,毕竟GK的实力确实很强,而且教练也是有点东西的。但是这一次,TTG从败者组...

EDG大优势却险些再被翻盘,虽然收获胜利,但气得阿布去骂人

LPL春季赛已经来到了第五周的第二天,今天的第一场比赛是EDG对阵LGD,两局一直打到生死局。EDG双人组也跟着换了上来,结果LGD这边又换了回去,结果第一条小龙也被LGD拿了下来。双方上单同时成为针对点,随后EDG推掉上一塔,LGD推掉下一塔。EDG剩余四人冲进龙坑强行打团。33分钟,EDG下野两...

AWL D组综述:刚刚削弱就被打脸 小强打人族还真不强?

昨天结束的AWL D组比赛中,小强成为了绝对的主角。小强先是用两个0-2送Sok直接小组第一晋级,狠狠打了刚刚削弱小强的暴雪和“人族领袖”TOD的脸。看来,除了打人族和暗夜,小强已经是UD的“一哥”了。随后120双线出现失误,狗被民兵杀光,在小炮的推进和火枪男巫的进攻下,ud分矿最终沦陷,Sok 1...

LOL-LPL:小花生蜘蛛中期连续阵亡,DMO2-0碾压LGD收获春季赛首胜

北京时间3月10日,2020LPL春季赛线上赛迎来第二比赛日,下午17:00的第一场比赛由DMO对阵LGD。DMO两局都顺利解锁了水龙魂,团战处理优于LGD,最终2-0收获LPL春季赛首胜!开局潘森上线途中手滑交出闪现,LGD入侵DMO红buff野区,双方中野和下路组一波拉扯,DMO打出0换3,中野...

炉石这卡组上限捅破天花板,很多职业选手都认为它应该被削弱

在如今的炉石比赛中,有一个卡组已经成为巫妖王一般的存在,被玩家称为“标准中的赛马”,那就是法术德。今天我以方丈对阵周郎的比赛来讲解克制法术德的单卡和卡组、法术德的赢点。双方都是带了法术德,但卡组形态略有不同,周郎是法术龙德。我是绝对不会说方丈这张卡昨天两局都是全程OB卡在手上。

阿水排位偶遇昔日队友宝蓝,双方完美合作Carry全场

虽然春季赛TES不敌JDG,仅拿下亚军。阿水加盟TES至今才两个多月,TES就已经拿下了季中杯冠军,还成为了夏季赛榜首。而阿水在近日的排位中,偶遇了昔日老队友宝蓝!阿水排位偶遇昔日队友宝蓝在游戏中,阿水选出了自己的招牌英雄卡莎,而宝蓝则选出卡尔玛辅助。在阿水和宝蓝下路双人组完美发挥下,轻松击败了对手...

英雄联盟:369厄加特关键出手,Knight佐伊最高伤害,TES轻取DMO

GAME1双方bo3第一就开始,TES蓝色方,DMO红色方。[16:30] DMO释放峡谷先锋推掉了中路一塔。[17:10] TES中路推塔的同时凯南狗熊绕后直接越塔开团击杀了DMO下路双人组随后拿下第二条风龙。[24:30] DMO三人想在上路抓死沙皇但沙皇逃生,凯南TP绕后眼位配合EZ击杀DMO...

盒子游戏,游戏玩家专属个性阅读社区


©CopyRight 2010- 2020 BOXUU.COM Inc All Rights Reserved

鄂公网安备 35020302000061号- 鄂ICP备2020015574号-1