你的《超级马里奥兄弟》通关了没?基于PPO强化学习算法的AI成功拿下29个关卡

内容速读:

《超级马里奥兄弟》你能玩到第几关?最早发行的这版《超级马里奥兄弟》设置8个场景,每个场景分为4关,共32个关卡,相信很多朋友至今还没有完全通关。因此,他决定利用强化学习AI算法来帮他完成未通关的遗憾。现在他训练出的AI马里奥大叔已经成功拿下了29个关卡。在一场游戏结束后,玩家可以自行选择通关路径,但这可能出现重复访问同一关卡的情况,所以AI未成功进入到这三关游戏之中。

《超级马里奥兄弟》你能玩到第几关?

说起这款FC时代的经典游戏,大家可能再熟悉不过了,大鼻子、留胡子,永远穿着背带工装服的马里奥大叔,成为了很多80/90后的童年回忆。

看着画面中熟悉的马里奥大叔一路跌跌撞撞,躲避半路杀出来的毒蘑菇,锤子乌龟,头盔兔子、食人花,感觉又回到了小时候。

你的《超级马里奥兄弟》通关了没?基于PPO强化学习算法的AI成功拿下29个关卡

最早发行的这版《超级马里奥兄弟》设置8个场景,每个场景分为4关,共32个关卡,相信很多朋友至今还没有完全通关。

Viet Nguyen就是其中一个。这位来自德国的程序员表示自己只玩到了第9个关卡。因此,他决定利用强化学习AI算法来帮他完成未通关的遗憾。

现在他训练出的AI马里奥大叔已经成功拿下了29个关卡。

你的《超级马里奥兄弟》通关了没?基于PPO强化学习算法的AI成功拿下29个关卡

不过,遗憾的是第4、7、8场景中的第4关卡未通过。Viet Nguyen解释说,这与游戏规则的设置有关。在一场游戏结束后,玩家可以自行选择通关路径,但这可能出现重复访问同一关卡的情况,所以AI未成功进入到这三关游戏之中。

Viet Nguyen使用的强化学习算法正是OpenAI研发的近端策略优化算法(Proximal Policy Optimization,简称PPO,他介绍,此前使用A3C代码训练马里奥闯关,效果远不及此,这次能够达到29关也是超出了原本的预期。

现在Viet Nguyen已经将基于PPO编写的完整Python代码发布到了Github上,并给出了详细的使用说明,感兴趣的朋友可以体验一下:

你的《超级马里奥兄弟》通关了没?基于PPO强化学习算法的AI成功拿下29个关卡

Github地址:https://github.com/uvipen/Super-mario-bros-PPO-pytorch

还会玩Dota的AI算法:PPO

据了解,PPO是OpenAI在2017年开发的算法模型,主要用来训练虚拟游戏玩家OpenAI Five,这位虚拟玩家在2018年的Dota2人机对抗赛中,战胜过世界顶级职业选手,同时能够打败99.95%的普通玩家。

复杂的游戏环境一直被研究人员视为AI训练的最佳场景。为了让AI掌握游戏规则,学会运用策略,强化学习是研究人员常用的机器学习方法之一,它能够描述和解决AI智能体(Agent)在与环境交互过程中通过学习策略实现特定目标的问题。

近端策略优化算法(PPO)已成为深度强化学习基于策略中效果最优的算法之一。有关该算法的论文已经发布在arXiv预印论文库中。

你的《超级马里奥兄弟》通关了没?基于PPO强化学习算法的AI成功拿下29个关卡

论文中指出,PPO是一种新型的策略梯度(Policy Gradient)算法,它提出新的“目标函数”可以进行多个训练步骤,实现小批量的更新,解决PG算法中步长难以确定的问题。固定步长的近端策略优化算法如下:

你的《超级马里奥兄弟》通关了没?基于PPO强化学习算法的AI成功拿下29个关卡

(每次迭代时,N个actor中的每个都收集T个时间步长的数据。 然后在这些NT时间步长的数据上构建替代损失,并使用 minibatch SGD 进行K个epochs的优化。)

研究人员表明,该算法具有信任区域策略优化(TRPO)的一些优点,但同时比它实施起来更简单,更通用,具有更好的样本复杂性(凭经验)。为了证实PPO的性能,研究人员在一些基准任务上进行了模拟测试,包括人形机器人运动策略和Atari游戏的玩法。

PPO算法的基准任务测试

在游戏角色的AI训练中,一种基本的功能是具备连续性的运行和转向,如在马里奥在遇到诸如地面或者空中障碍时,能够以此为目标进行跳转和躲避。论文中,研究人员为了展示PPO的高维连续控制性能,采用3D人形机器人进行了测试,测试任务分别为:

(1)仅向前运动;(2)每200个时间步长或达到目标时,目标位置就会随机变化;(3)被目标击倒后,需要从地面站起来。以下从左至右依次为这三个任务的学习曲线。

你的《超级马里奥兄弟》通关了没?基于PPO强化学习算法的AI成功拿下29个关卡

研究人员从以上学习曲线中,随机抽取了任务二在某一时刻的性能表现。如下图,

你的《超级马里奥兄弟》通关了没?基于PPO强化学习算法的AI成功拿下29个关卡

可以看出,在第六帧的放大图中,人形机器人朝目标移动,然后随机改变位置,机器人能够跟随转向并朝新目标运行。说明PPO算法在连续转控方面具备出色的性能表现。

那么它在具体游戏中“获胜率”如何呢?研究人员运用Atari游戏合集(含49个)对其进行验证,同时与A2C和ACER两种算法进行了对比。为排除干扰因素,三种算法全部使用了相同的策略网络体系,同时,对其他两种算法进行超参数优化,确保其在基准任务上的性能最大化。

你的《超级马里奥兄弟》通关了没?基于PPO强化学习算法的AI成功拿下29个关卡

如上图,研究人员采用了两个评估指标:(1)在整个训练期间每集的平均获胜数;(2)在持续100集训练中的每集的平均获胜数。 前者更适合快速学习,后者有助于最终的比赛表现。可以看出PPO在指标一种的获胜次数达到了30,在小样本下有更高的胜率。

最后研究人员还强调,PPO近端策略优化的优势还在于简洁好用,仅需要几行代码就可以更改为原始策略梯度实现,适用于更常规的设置,同时也具有更好的整体效果。

更多论文详细内容,请参见地址:https://arxiv.org/abs/1707.06347

马里奥大叔闯关视频完整版

最后一问:

《雪人兄弟》《绿色兵团》《忍者神龟》《双截龙》《魂斗罗》等众多经典FC游戏中,你最喜欢哪一个,是否全部通关了呢?

引用链接:(雷锋网雷锋网雷锋网)

https://www.reddit.com/r/MachineLearning/comments/hy3hry/p_python_implementation_of_proximal_policy/

相关推荐

任天堂携手乐高推出真实版《超级马里奥兄弟》,满满的童年回忆

还记得小时候玩过的《超级马里奥兄弟》吗?你没看错,乐高跟老任合作,用积木在现实中还原了红白机上《超级马里奥兄弟》的玩法。套装中的马里奥,眼睛、嘴巴跟胸口的位置都被替换成了屏幕。不管怎么说,能拿一个真的马里奥从问号箱子里顶出金币来,这事儿本身已经够好玩了。视频开头还能看到马里奥人偶背后的开关和蓝牙按钮...

自相矛盾的任天堂黑历史?35周年庆的马里奥其实已经37岁了

前不久,超级马里奥系列迎来了诞生35周年的纪念日。但是你或许不知道,其实马里奥这个名字第一次出现,是在37年前的今天,任天堂在FC平台发售了《马里奥兄弟》这款游戏上。为什么明明已经37年的马里奥,任天堂只纪念35周年生日呢?而第一次被任天堂赋予了马里奥的名字,正是在《马里奥兄弟》这款游戏中。顺带一提...

《马造2》关卡数突破500万!300块钱卖你们真是亏了

在月初的时候《超级马里奥制造2》玩家自创关卡数依旧超过400万个关卡,今日任天堂官方发推特表示关卡数量已经突破500万,为此发推庆祝,一起来看看吧。任天堂表示:“感谢所有的《超级马里奥制造2》创作者们为游戏上传了超过500万个关卡!这里为大家展示了两个值得一看的作品!将你的关卡作品分享出来,你也将可...

PC版《超级马里奥64》4K材质包 贴图分辨率提升10倍

随着PC版《超级马里奥64》的发布,各路MOD牛人也开始为这款游戏制作MOD了。如果你一直在期待高清版的《超级马里奥64》,那么这个4K材质包MOD很适合你。根据Github的描述,《超级马里奥64》4K材质包是由16位网友共同打造的,他们付出了辛勤的汗水,为《超级马里奥64》这款老游戏带来了惊人的...

《超级马里奥酷跑》是一款好游戏吗?

《超级马里奥酷跑》不是任天堂第一款手游,但在实际意义上,你可以说它是。游戏原本宣布将于12月15日发售,在此之前的大概10个小时里,有不少人在焦躁地刷屏。现在,你可以在手机上玩到真正的超级马里奥了。《超级马里奥酷跑》有免费的3关试玩,解锁全部的6大关24小关则需要一次性付费9.99美元。《超级马里奥...

心灵受到伤害,童年的你可能不知道这些FC游戏如此甜蜜浪漫

在当时流行FC游戏年代里,《魂斗罗》,《超级马里奥》和《坦克大战》等像素小游戏是必不可少的。不过,这些FC游戏都很正常,不会给我们撒糖。接着,小编就要说说你小时候玩过的一些FC游戏居然如此甜蜜浪漫,这太让人伤心了。单身小编瞬间受到1万点伤害......爱心企鹅这款FC游戏相信很多玩家都玩过,玩家在迷...

十款会让你怀旧90年代的游戏

很难说这些标志性的游戏是否还能像90年代那样激发出同样的快乐,或者说每天都会像20年前那样,因为玩这些游戏而失去了时间。在他们的恐龙伙伴尤西的帮助下,这对夫妇注定会有更大的成就。有可能你或你认识的人在90年代的时候很喜欢这个游戏。这款游戏的人气大增,以至于根据游戏的剧情制作了一部名为《新超级马里奥世...

什么是游戏分级?美女主播带你从幼儿迈向成人世界

说到这里你可能已经看出来了,这些游戏是依照ESRB分级制度来划分的,如果你由于各种不可抗的原因对于“游戏分级”这件事还不甚了解,不妨让我们的美女主播来给你科普一下。任天堂的几款重量级大作,比如《塞尔达传说荒野之息》、《超级马里奥奥德赛》等都在这个范围之内。

《超级马里奥酷跑》失败了?它也许是一次赌博式的市场调查

如果你关注过关于《超级马里奥酷跑》的新闻,应该会知道这个游戏最近的风评走向:不是很乐观。在整个手机游戏、甚至是整个游戏史上,《超级马里奥酷跑》也称得上是营销力度最大、效果最杰出的游戏之一,恐怕只有同出自任天堂门下、由Niantic制作运营的《Pokémon Go》的推广力度能够与之相比。在这样前所未...

如今玩着《剑盾》的你,是否还记得陪伴你童年的"口袋妖怪"

“口袋妖怪”是国内玩家中的民间译名,至于是谁第一个叫起这个名字的咱们已经不知了。不单单是大陆地区,比如香港市译名《宠物小精灵》,台湾省译名《神奇宝贝》。但在那个年幼的时候谁会去考虑这些、谁会管你的真实名字是《Pokemon》?就一句话,好玩就足够了!这个世界上第二畅销的电子游戏系列,仅次于《超级马里...

9月新游资讯 | 漫威经典?枭雄传奇?你最期待哪一款?

《漫威复仇者联盟》发售日期:09.04发售平台:PS4/XB1/PC/PS5/XSX以漫威旗下最炙手可热的“复仇者联盟”为主题的第三人称动作冒险游戏,实现你的超级英雄梦。玩家最多可以组建四人小队,掌握非凡的超能力、定制符合自己风格的英雄来保护遭受威胁的世界。《NBA 2K21》发售日期:09.05发...

盘点那些百玩不厌的游戏,一款没玩算我输

辛苦工作一礼拜,总算能够休息一下今天推荐一些百玩不厌的超级耐玩的游戏,你可能又看到很多熟悉的游戏,这些不包含任何的竞技类型的游戏,所以有的你就不要说没什么什么游戏,小编你玩过游戏这种听着就……废话不多说了,今天的第一款游戏:①《魔兽争霸3》没想到吧,居然不是我一直推荐的《文明》《环世界》实在是不敢了...

“变态版”我的世界你见过吗?老MC玩家:太反常,又出BUG了

颠倒版史蒂夫从这张图片我们可以看出,史蒂夫好像没有了额头,拥有一个超级的大胡子。而这个超级大胡子非常的令人无语,我们仔细看一下这张图片,史蒂夫的眼睛是正常的,但是整个人的体型已经发生了天翻地覆的变化。据我了解的资料,在初始版本当中,史蒂夫是拥有一个络腮胡的超级老爷爷,但是考虑到玩家的多样性,最后把络...

红警2共和国之辉,中国对战七冷酷加超级武器,完虐七国

七个冷酷敌人加超级武器可不是闹着玩的。在面对七个有超级武器的冷酷敌人时,你必须发展的比敌人快,要不然七个国家的超级武器能把你炸到怀疑人生。狗配合炮塔,步兵的噩梦。狗咬士兵,那也是一口一个,非常的爽。敌人派出黑鹰战机,频繁攻击我的基地。在和七个冷酷敌人的博弈中,我会时刻关注小地图,优先攻击有超级......

王者荣耀:当你的队友完了这三个英雄,敌方开始庆祝胜利

第一个是韩信,不知道大家有没有这种感觉,会玩的韩信都是在对面,己方只要选韩信必输。就跟玩家说的一样,别人家的韩信会偷水晶,我方的韩信就犹如超级兵。抓不到人,还不带线,光刷野经济还没对面抓人的经济高,打到最后0-8,还说都是队友的错。别人家的钟馗爆炸输出,我家的钟馗是一输出就爆炸,还炸不死人。

盒子游戏,游戏玩家专属个性阅读社区


©CopyRight 2010- 2020 BOXUU.COM Inc All Rights Reserved

鄂公网安备 35020302000061号- 鄂ICP备2020015574号-1