DeepMind和暴雪联手发布开发工具和replay数据集,让更多AI研究者玩上星际2

雷锋网 AI 科技评论按:去年年底的时候,大家都知道了 DeepMind 的人工智能要开始玩星际了,今天DeepMind
也正式发布了论文和相关博文介绍了自己在这方面的成果,他们与暴雪联手发布了一系列工具,方便更多的研究者参与到(让人工智能)玩星际2中来。雷锋网
AI 科技评论编译如下。

DeepMind 一直抱有这样的一个科学目标:构建能学会解决复杂问题的系统,以此来不断推进人工智能的发展前沿。为此,DeepMind 开发了各种各样的智能体,然后在自己搭建的 DeepMind Lab 平台上用各种各样的环境测试它们。

有一类重要的测试环境是游戏。它们虽然不是专门为人工智能研究设计的,但毕竟人类可以玩得很好,它们也就是评估人工智能表现的一种重要方法。在围棋和 Atari 游戏都玩得比较熟练了以后,DeepMind 这次介绍了自己在新游戏中的研究进展:星际2。

  • DeepMind和暴雪一起发布了SC2LE,这是一个帮助研究如何让人工智能玩学会星际2这个RTS游戏的工具包。此次发布的 SC2LE 中包括:
  • 一个机器学习API,由暴雪开发,它能够帮研究者和开发者接入游戏。其中还首次包括了运行在Linux上的工具。
  • 一个匿名的游戏replay数据集,目前只有6万5千场,在接下来几周内会增加到50万场左右。
  • DeepMind的工具包PySC2的开源版本,研究者可以借助它轻松让智能体使用暴雪的特征层API。
  • 一篇DeepMind和暴雪联合完成的论文,它大致介绍了环境的组成、在测试小游戏中取得的初期基准成果、如何从replay监督学习,以及与游戏内置的 AI 进行1v1的天梯对抗。

星际和星际2算得上是所有游戏里最大、最成功的那一批,玩家们在这些游戏里厮杀也有超过20年了。不仅星际2,第一代星际也已经被人工智能和机器学习研究者用作测试环境,每年的
AIIDE
上都会举办人工智能星际大赛。星际之所以如此长寿,有相当一部分原因是由于它丰富、多层面的游戏过程,这样它也就成为了理想的人工智能研究环境。

比如,星际的最终目标是要击败对手,但玩家还是需要执行一系列收集资源、造建筑这样的分目标并在它们之间找到平衡。而且,一场游戏所花的时间短则几分钟,长则一小时,那么在游戏早期采取的行动就可能在很长一段时间内都看不到对应的收获。最后,地图上只有一部分区域是可见的,智能体就需要综合使用记忆和规划能力,才能取得胜利。

除此之外,这个游戏还有一些别的方面也对研究者有吸引力,比如每天都有众多的玩家在线上游戏中对抗。这就保证了会有海量的replay数据供智能体学习,而智能体将来也会有许许多多极具天赋的对手可以切磋。

不过,即便只是星际的操作都是一项不小的挑战,每时每刻可以选择的基础操作超过300种。这就跟
Atari
游戏形成了明显的区别,它里面可选的动作不超过10种(比如上下左右)。在此基础上,星际中的操作也是有层次的、可以修改以及增强的,其中的许多操作都需要在屏幕上点击。就算只是一个84x84那样的小屏幕,所有可能的操作加起来也会高达上亿种。

对人类和智能体来说,根据选择的单位不同,可以进行的操作也不同

在这次的工具发布以后,研究者就可以用暴雪自己的工具解决一些上面提到的麻烦,这样就可以更方便地构建自己的任务和模型。

DeepMind
的 PySC2 工具可以把环境分类打包,从而为强化学习智能体提供了一个灵活易用的界面,帮助它们玩游戏。在此次发布的初始版本中,PySC2
把游戏中不同的元素划分成了不同的“特征层”,比如不同类型的单位、生命值、地图的可见性等等会相互分开,同时还能保持游戏核心的视觉和空间元素。

用不同的层显示游戏中不同类型的内容

SC2LE工具包里还包含一系列的测试小游戏,它们把整个游戏分为了多个不同的可控片段,这样就可以测试智能体在特定任务上的表现,比如切换视角、采矿或者选择单位等等。研究者可以在这样的小游戏中测试他们的技术,同时也可以帮助建立更多的测试小游戏,便于更多的研究者继续竞争和评估。

简单的强化学习小游戏可以让研究者测试智能体在特定任务中的表现

以DeepMind目前的研究进展,他们的智能体已经可以在这样的特定任务小游戏中发挥不错的表现,但是到了整场游戏,即便是
A3C 这样比较强的基准 AI 也根本打不赢“简单”的游戏内置
AI。比如,下面动图里左边的就是一个训练早期的智能体,它没法让矿工采矿,这件事对人类来说不费吹灰之力。经过训练之后,智能体表现出了有意义的动作,但是如果要让它们有竞争性的话,还需要在深度强化学习和相关领域有更大突破。

DeepMind的研究人员发现了一种让智能体学到更强策略的技巧,就是模仿学习。这样的学习方法在暴雪的帮助下也很快就会变得容易,他们已经答应会继续发布几十万局星际2天梯上的匿名游戏replay。这不仅可以让研究者用监督学习的方法训练智能体,而且也为序列预测、长期记忆等等其它的研究领域提供了可能。

DeepMind希望这些新发布的工具可以让人工智能大家庭在星际游戏上已有的研究成果再前进一步,鼓励更多的人从事深度强化学习研究,也让研究者可以更轻松地跟上这个领域的前沿发展。DeepMind也期待人工智能大家庭可以有一些精彩的发现。

论文地址:https://deepmind.com/documents/110/sc2le.pdf

PySC2 github地址:https://github.com/deepmind/pysc2

暴雪的星际2 API地址(包含了Linux版的信息、游戏replay和其它相关内容):https://github.com/Blizzard/s2client-proto 

via DeepMind Research Blog,雷锋网(公众号:雷锋网) AI 科技评论编译

相关文章:

继围棋之后“阿尔法狗”又有新战场,谷歌打算让它去玩星际争霸

阿里推出多智能体双向协调网络BicNet,玩《星际争霸》堪比人类

本文作者:杨晓凡

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-08-29 03:38:46

DeepMind和暴雪联手发布开发工具和replay数据集,让更多AI研究者玩上星际2的相关文章

Eclipse 3.2 Java开发工具的新特性

Eclipse是一个流行的针对Java编程的集成开发环境(IDE).它还可以用作编写其他语言(比如C++和Ruby)的环境,合并各种种类工具的框架,以及创建桌面或服务器应用程序的富客户端平台.如今,Eclipse开源社区拥有数十个项目,其范围从商务智能到社会网络等各个方面.Eclipse同时也是管理这些项目的非赢利性组织的名称.(而且,尽管我相当肯定它并非地板蜡,还是存在Eclipse汽车.足球队和口香糖.) Eclipse version 3.2在Eclipse Callisto 发行历史上具

Windows Phone 7 开发工具介绍

Windows Phone 7 开发工具介绍 在今天的 MIX10会议上,我们推出了 Windows Phone 7 系列开发故事.开发 Windows Phone 7 系列开发的核心技术是 Silverlight. 这使您能够使用您现有的开发技能来构建 Windows Phone 7 的应用程序. 现在您可以在这里下载到微软的 Windows Phone 7系列开发工具包--Windows Phone 开发工具CTP版本. Windows Phone开发工具CTP版本包含了所有您需要的开始Wi

给不会编程的创业者的10款AppDIY开发工具

你有一个很棒的创意但不会编程怎么办?外包.合伙开发还是从零学编程?这里提供另外一种方式--使用无需编程的App DIY开发工具.DIY开发工具不仅节省了开发时间和资金,更为那些创意无限热爱应用的人提供了便捷的开发方式,无需编程即可让创意落地成形.此外,DIY开发工具也满足了细化的 应用市场的需要,这些市场用户规模较小,可能仅仅是为了满足工作中的沟通和管理需要,可能仅仅是为了与粉丝互动,也可能仅仅是为了给某个活动做宣传等等.这些DIY开发工具无需编程经验,绕开了技术的壁垒,同时降低了用户在更新和内

Windows Phone 7开发教程(1)——Windows Phone开发工具初体验

这是为<程序员>4月期写的文章,是在<双重惊喜-- Windows Phone Developer Tools初体验>的基础上增加了一些内容, 包括WebBrowser空间.MediaPlayer空间,还有一个非常简单的XNA程序.希望对 Windows Phone开发有兴趣的朋友有一些帮助. Windows Phone开发工具在MIX 2010上火热登场了.Windows Mobile开发者们 压抑许久的热情终于爆发出来,对于Windows Phone的华丽转身,开发者们褒贬 不

Linux开发环境必备十大开发工具

Linux是一个优秀的开发环境,但是如果没有好的开发工具作为武器,这个环境给你带来的好处就会大打折扣.幸运的是,有很多好用的Linux和开源开发工具供你选择,如果你是一个新手,你可能不知道有哪些工具可用.本文将介绍其中十个杰出的开源开发工具,它们将帮助你提升自己的开发效率. 1.Bluefish Bluefish是进行Web开发时最受欢迎的IDE之一.它能够处理编程和标记语言,但是该工具的重点用途在于创建动态和交互式网站.和许多Linux应用程序一样,Bluefish是一个轻量级工具,运行速度非

在扁平的世界中协作: 协作开发工具

本文讲的是在扁平的世界中协作: 协作开发工具,[IT168 资讯]软件开发领域的协作包含了大范围的团队活动,从在同一个地方的小型项目的团队开发,到涉及三个或更多时区以及数百个开发人员的地理上分布的项目,还有一些是外包的.本文介绍了协作开发的目前状态,并且考虑了一些最佳协作的障碍. 一般来说,软件开发人员和技术专家总是在寻找下一件大事.我们中的许多人都试图成为预知行业中下一个趋势的权威.本月,我将试着预测一个我认为将成为成功软件开发的关键的领域 -- 协作开发,以及支持它的工具.什么是协作和协作开

NetBeans IDE 7.1发布 开放源码的软件开发工具

NetBeans IDE 7.1本次发布的版来带来JavaFX 2.0.2 SDK的支持,在Java编辑器中一批重构工具进行了批量改进,一个新的UI调试器应用于JavaFX和Swing,支持GlassFish 3.1.1和WebLogic 12C++,CDI, EJB, JSF, Spring, Web Services改进支持,几个Subversion和Mercurial的增强及捆绑Git的支持,Maven和PHP的增强. NetBeans是由Sun建立的开放源码的软件开发工具,是一个开放框架

RKWard v0.5.5发布 一款R语言的图形化开发工具

RKWard v0.5.5发布一款R语言的图形化开发工具.R是用于统计分析.绘图的语言和操作环境.R是属于GNU系统的一个自由.免费.源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具. 更新说明: New features and improvements - Re-organize the default toolbar actions of the main window - Detached windows are now restored in detached state w

NetBeans IDE v7.0发布 开放源码软件开发工具

NetBeans是由Sun建立的开放源码的软件开发工具,是一个开放框架,可扩展的开发平台,可以用于Java,C/C++等的开发,本身是一个开发平台,可以通过http://www.aliyun.com/zixun/aggregation/35077.html">扩展插件来扩展功能.它是一个全功能的开放源码Java IDE,可以帮助开发人员编写.编译.调试和部署Java应用,并将版本控制和XML编辑融入其众多功能之中.NetBeans开发环境可供程序员编写.编译.调试和部署程序.虽然它是用Ja