【田渊栋报告】游戏中的人工智能:成就与挑战 | ICML WorkShop(46PPT)

【田渊栋】这次有幸成为了首届VGML(Video Games and Machine Learning)的workshop的受邀演讲嘉宾。以下是流水帐。

我第一个演讲,因为Gabriel的开场白只花了十分钟,所以我有五十分钟,占了点小小的便宜。主要讲了DarkForest,Doom还有最近的ELF的框架。ELF是一个游戏之上的框架,任何游戏或者虚拟环境,只要带有C++接口都可以往里装(现在有Python接口也可以了),而ELF会自动处理并行的问题。ELF收集完了一个batch的游戏数据,就可以交给Python端的强化学习算法进行训练。这样的框架很灵活,不管是Self-Play还是Multi-Agent或者是MCTS,不管是简单的A3C或者是带规划(planning)的复杂强化学习算法,都可以统一在一起。另外我们还在ELF里面写了个微缩版的即时战略游戏MiniRTS,帧率在笔记本电脑上达到了单核4万帧每秒,对训练颇有帮助,训练一个包含采矿造兵防守进攻的能玩完整游戏的AI只需要单GPU几个CPU半天时间。

大家对ELF还有挺多兴趣的,问了好几个问题。DeepMind那边Oriol一副挺当回事的表情,并反复表示他们的文章里引了我们这篇。后来我一查居然同一篇文章引了两次,回想起Oriol说自己困得不行,得要回去睡觉,看来这文章还真是赶出来的。 

然后是两个Spotlight。说实在这一次的workshop的文章质量很高,一篇是用多智能体的模型玩星际局部战斗,借用了博弈论里面counterfactual的思路去定义每个智能体的优势函数(advantage function),效果居然和把所有兵当成一个智能体的性能差不多,挺令人吃惊的。另一篇则回顾了俄罗斯方块的算法。

接下来是Marc,他之前在DeepMind后来去了新开的蒙特利尔Google Brain。他介绍了一下Atari Game的历史,把Atari游戏归为三类,一类是已经解决的,一类是还未解决的,另一类是被AI找到漏洞刷分的。有趣的是,大部分还未解决的游戏集中于Atari游戏发布后期,证明我们AI的水平目前还局限于此,未来还有很长的路要走。对于“游戏研究有何意义”的质问,他引用了强化学习老前辈Richard Sutton的观点,认为认为“游戏会比真实世界更真实”(原话是“游戏会比任何我们制造出来的东西更真实”, In Practice ... Games end up being more real than anything we make up")。

接下来是EA的Magnus Nordin,SEED组的老大(注意不是高达那个SEED)。来自游戏公司的讲义,其质量只能以惊艳来形容。他一开始介绍了目前运用深度学习在图形学和物理引擎上面的进展。其中通过像素点采样来进行光线跟踪,然后用神经网络插值这个效果实在太漂亮,眼看着图形学界折腾了十数年的实时光线跟踪就要被深度学习两三下做成了。之后他介绍了EA在AI上的进展,他们用online+offline A3C对一个3D射击游戏(可能是战地1942?)训练了一个相当复杂的网络,取得了不错的效果。

接下来是另两篇Spotlight。一篇做吃豆人(Pacman)游戏,用奖励分解(reward decomposition)的技术做到超人类的性能,在这个游戏上远远甩开了之前所有的算法。另一篇是基于两阶段GAN的地形生成算法,生成的地形相当自然漂亮。

下午做Minecraft上的平台Malmo的Katja过来做演讲。她对合作式AI有相当的兴趣。接下来就是大家非常关注的暴雪和DeepMind合作的星际2的API,由来自暴雪的主任工程师Jacob来讲。Jacob一身肌肉,颇有当电影明星的潜质。他一开始就声明要录音,说这是给他妈妈的礼物,让大家一起喊hi Mom。不得不说好温馨啊。他讲了很多干货,配上DeepMind之前发布的文章一起看效果更佳。我相信大家对此都很有兴趣,所以我会再开一篇博客专门讲。

说句题外话,晚上我们一起吃饭的时候,Jacob同学透露出他是坐经济舱十几个小时飞过来的,刚下飞机就过来做演讲,为的是给组里人省经费;收了账单还要仔细看里面有没有列着酒,因为酒不让报销……真是不容易。

接下来由来自DeepMind的Max讲几个和三维场景有关的工作。有些部分像UNREAL,从去年的NIPS Workshop开始大家都听过很多次了,还有一些是最近的工作,如用autoencoder来训练可迁移特征的DARLA,还有让Agent听从自然语言指令(instruction following)的工作。

最后是由来自密歇根大学的教授Honglak Lee的演讲收尾。主要讲了他们ICLR16和ICML17的两个工作。他们使用Minecraft这个平台,搭建二维迷宫,用Hierarchical RL让智能体在迷宫中顺序执行多个指令,并能执行以前没有见过(但每部分都见过)的指令。

Workshop的最后部分是让所有的演讲者坐在一起回答观众们的问题。总的来说气氛比较欢乐。以下是一些我还记得起来的问题及回答:

1. 什么是强化学习将来重要的方向?

大家各种讨论,主要提的方向是Model-based RL还有hierarchical RL。当然这些都说说而已嘛,不要当真。不过蒙对了也说不定。

2. 如何使得AI可被解释。

我的观点是现在主要是数据太多,依赖关系太复杂所以人看不过来。像AlphaGo,首先你不知道DCNN是怎么得到下一步的走法的,其次面对一株庞大无比的MCTS搜索树,人根本看不过来。所以说要达成可解释性,要不就让神经网络自己总结,然后反馈给人。你说我们凭什么在看不到对方心跳呼吸还有神经元传导细节的条件下去相信一个人,还不是因为相信他的话嘛。

3. 大家对内在驱动力(Intrinsic reward)的看法如何。

我觉得这个是非常重要的,以前是Feature engineering,现在变成了reward engineering。以后环境越来越多,人类肯定没有精力去设计所有的reward。这样的话让agent自己找到目标非常重要。其它人也纷纷觉得这是个很有意思的方向。

4. 计算资源重要还是新算法重要。

我觉得两者都重要,是不相关的两个因素。计算资源谁不喜欢,大家都想要GPU越多越好,本来跑两天的算法,两小时就可以跑出来,那太好了。但是我仍然认为新算法是推动领域发展的根本因素,不然大家都回家睡觉,等着机器传来奇迹吧。我们跑到悉尼来开这个会的初衷,不就是要来看不同的想法不同的思路的嘛,大家都依赖机器,那这个会就不用开了。

来源:知乎,https://zhuanlan.zhihu.com/p/28470717

演讲:游戏 AI 的成就和挑战

下面是新智元编辑根据田渊栋老师的演讲 PPT 整理的内容。

演讲《AI in Games:Achievements and Challenges》探讨了游戏 AI 的技术挑战和发展前景。就在上周末,OpenAI 开发的 DOTA2 游戏 AI 掀起了不小的轰动,更早些时间,DeepMind 宣布正式进军星际争霸II。这些无不表明电子游戏在开发和测试 AI 时的重要性。

游戏作为开发和测试 AI 的一种手段,拥有以下几大优点:

  • 拥有取之不尽用之不竭的完整标记数据
  • 环境受控且可靠
  • 每个样本的成本低
  • 比在现实中开发速度快
  • 没有那么多伦理和安全上的担心
  • 用简单的规则能够实现复杂的动态

不过,用游戏来开发和测试 AI 也有缺点,包括:

  • 算法运行速度慢,数据不够有效(data-inefficient)
  • 整体成本较高
  • 如何将游戏抽象为真实世界,还存在一定的问题
  • 很难基准衡量进步

尤其是第 3 点,如果最终不能扩展到现实世界,那么使用游戏这种虚拟环境优点再多也无济于事。

游戏 AI 有很长的历史,从早期的扑克牌、简单的国际象棋,到上世纪 70 年代的 Atari 游戏(比如 Pong、Breakout),再到 80 年代的超级马里奥。从上世纪 90 年代开始,游戏 AI 开始玩大规模在线游戏,比如星际争霸(1998 年)、模拟人生,到现在的星际争霸 II、GTA V,最终幻想系列。

游戏 AI 的研究人员也致力于从两方面改善游戏 AI 的不足,一是开发更好的算法和系统解决运行速度慢、现实抽象难的问题,一是完善开发环境,解决研发成本高和设定基准的问题。

以田渊栋和他的同事在 Facebook 的工作为例。围棋引擎 DarkForest Go Engine(Yuandong Tian, Yan Zhu, ICLR16)和 Doom AI(Yuxin Wu, Yuandong Tian, ICLR17)就是从算法/系统的角度入手,而 ELF 框架(Extensive Lightweight and Flexible Framework, Yuandong Tian et al, ArXiv)就是从开发环境入手。

接下来,演讲介绍了游戏 AI 的工作原理。一般来说,主要考虑这样几点:智能体每走一步需要操作多少次?游戏情景有多复杂?游戏搜索的深度是多少?

有些游戏,即使用超级计算机,也不可能搜索完全部的空间。

根据游戏规则的不同,每一步要执行动作的多少也不同,扑克只需要几步,国际象棋也就 30 到 40 步,因此使用的方法也相对简单,比如国际象棋使用 alpha-beta 剪枝结合迭代深化,即使是围棋,也可以只考虑前 100 到 200 步,比如常用的蒙特卡洛树搜索 + UCB 探索。

不够,星际争霸就很复杂了,每一步有 50 的 100 次方那么多可能的选择。

研究人员针对不同的游戏提出了不同的应对方法,比如围棋使用基于规则的方法再结合神经网络。

在游戏中应该如何为策略/价值函数建模?

游戏的环境是高维且非平滑的,而且与具体情境关系很大,在围棋里,一子落点不同就会得出完全不同的结果。使用传统方法需要手动设置步骤,有时候参数会矛盾导致难以扩展,还需要很强的领域知识。如今使用深度学习,实现了端到端的训练,数据变多了,调参变少了,没有很强的领域知识也能操作,而且取得了很好的效果。

以 AlphaGo 为例,有 GPU 和 TPU 做硬件支撑,策略网络和价值网络相结合。其中,策略网络使用了人类监督学习和强化学习,价值网络使用机器自我对弈的数据,预测当前落子对终局的影响。Fast rollout,比 DCNN 预测快几千倍,每一步只需 2 微秒,准确率大约 30%。

接下来,演讲介绍了 Facebook 的围棋 AI DarkForest。使用 DCNN 树搜索策略,预测接下来 k 步,使用 KGS 数据集170k 数据和 GoGoD 数据集 80k 数据做训练,准确率 57.1%。比 AlphaGo 早 3 个月发布,使用的 GPU 也不到 1%。

另外,还有第一人称视角射击游戏(FPS),这是田渊栋和同事 Yuxin Wu 在 ICLR17 发表的工作。

网络结构如下,使用普通帧加带了注意力的每一帧数据作为输入状态 S,研究人员发现将这些帧叠在一起比使用 LSTM 更加有效。

结果在 2016 年 VizDoom AI 竞赛 Track 1 获得了第一名。

还有为了更好的游戏 AI 研究环境而提出的 ELF 框架,能够整合任何有 C++ 接口的游戏,轻量级,而且十分灵活。

现在已经开源,http://github.com/facebookresearch/ELF

ELF 不仅用于游戏研究,还能开发和测试复杂强化学习算法、机器人领域离散/连续控制,以及对话问答系统。

演讲以未来的工作结尾,我们还需要更加丰富的游戏场景,更加真实的行动空间,基于模型的强化学习,以及训练 AI 对战 AI。

文章转自新智元公众号,原文链接

时间: 2024-09-03 12:55:43

【田渊栋报告】游戏中的人工智能:成就与挑战 | ICML WorkShop(46PPT)的相关文章

Facebook 田渊栋详解:深度学习如何进行游戏推理?

雷锋网按:腾讯围棋 AI 程序"绝艺"(Fine Art)在世界电脑围棋大赛 UEC 上力压多支日韩参赛退伍获得冠军,一时间又引发了大家对 AI 和围棋的关注和讨论. 其实,自去年 3 月份 AlphaGo 战胜李世石之后,人们对会下围棋的人工智能程序已经不陌生了.大部分人都知道 AlphaGo 是利用了一种名叫深度学习的技术,然后基于互联网棋谱大数据的支持,每天自己跟自己对弈,所以才能这么厉害. 但鲜有人知道的是:在围棋这种逻辑缜密的推理游戏中,AI 究竟是怎么"思考&qu

详解Facebook田渊栋NIPS2017论文:让大家都能做得起深度强化学习研究的ELF平台

这周,机器学习顶级会议 NIPS 2017 的论文评审结果已经通知到各位论文作者了,许多作者都马上发 Facebook/Twitter/Blog/朋友圈分享了论文被收录的喜讯.大家的熟人 Facebook 人工智能研究院研究员田渊栋也有一篇论文入选,论文名为「ELF: An Extensive, Lightweight and Flexible Research Platform for Real-time Strategy Games」.这篇论文介绍了他们构建的强化学习研究平台 ELF,为环境

Facebook 田渊栋:学AI的门槛在哪,以及,为什么AI人才有高收入?

雷锋网(公众号:雷锋网)按:本文作者田渊栋,卡耐基梅隆大学机器人系博士学位.上海交通大学硕士学位和学士学位,前谷歌无人车项目组成员,现任Facebook人工智能组研究员,主要负责Facebook的智能围棋项目Dark Forest.文章转载自知乎专栏,雷锋网已获授权. 最近收到一些信问"自己是不是适合搞AI,门槛是不是太高"等等问题,也看到"IT是不是泡沫"等等讨论,我就写篇博客给大家分享下我的观点,顺便也分析一下做AI,ML及CS的前景. 其实AI现在算是野蛮生长

独家 | 专访田渊栋:AlphaGo之后,研究智能围棋还有什么意义?

没有什么是永垂不朽的,没有什么会一直昌盛,所以我宁愿做点真正有意义的事情,来致敬这个风起云涌的人工智能时代. -------题记. 近日,田渊栋受地平线曾经在Facebook的同事邀请,赴中国做了一期大牛讲堂,分享了关于游戏和增强学习等的话题.分享会后,AI科技评论采访了田渊栋,就他为什么离开Google无人驾驶团队去Facebook人工智能研究院,现在正在做的工作,如何平衡工作中理论和应用的比率,怎么看待绝艺和AlphaGo的棋艺水平,怎么看待智能围棋的实用价值,接受了AI科技评论的采访.以下

【预告】田渊栋直播讲解Facebook 围棋 AI 程序 DarkForest 是如何推理的? | AI 研习社

昨天,腾讯围棋 AI 程序"绝艺"(Fine Art)在世界电脑围棋大赛 UEC 上力压多支日韩参赛退伍获得冠军(详见雷锋网(公众号:雷锋网)深度报道"扬名UEC杯,腾讯围棋AI'绝艺'夺冠之路全回顾"),一时间又引发了大家对 AI 和围棋的关注和讨论. 其实,自去年 3 月份 AlphaGo 战胜李世石之后,人们对会下围棋的人工智能程序已经不陌生了.大部分人都知道 AlphaGo 是利用了一种名叫深度学习的技术,然后基于互联网棋谱大数据的支持,每天自己跟自己对弈,

李开复、马少平、周志华、田渊栋都是怎么看AlphaGo Zero的?

本文讲的是李开复.马少平.周志华.田渊栋都是怎么看AlphaGo Zero的?, 北京时间10月19日凌晨,Deepmind在Nature上发布论文<Mastering the game of Go without human knowledge>(不使用人类知识掌握围棋),在这篇论文中,Deepmind展示了他们更强大的新版本围棋程序"AlphaGo Zero",验证了即使在像围棋这样最具挑战性的领域,也可以通过纯强化学习的方法自我完善达到目的.据介绍,AlphaGo Z

【田渊栋年度总结】FAIR强化学习研究进展,理论研究竞争也相当激烈

今年的主要研究方向是两个:一是强化学习及其在游戏上的应用,二是深度学习理论分析的探索. 今年理论方向我们做了一些文章,主要内容是分析浅层网络梯度下降非凸优化的收敛性质.首先是上半年我自己 ICML 的这篇[1],分析了带一层隐层的网络,且输入为高斯分布时的收敛性情况.这篇文章,尤其是去年在 ICLR 17 workshop 上发表的不完全版,可以算是此方向的头一篇,给分析神经网络的非凸问题提供了一个思路.之后 CMU 的杜少雷过来实习,又出了两篇拓展性的文章.两篇都在浅层卷积网络上做了分析,一篇

Facebook田渊栋:德州扑克上战胜人类的AI究竟用的是什么算法?| 解析

最近听说我的母校卡耐基梅隆大学德州扑克的AI Libratus以很大的优势赢得了与职业玩家的比赛,非常兴奋.在同时期,还有一篇来自加拿大阿尔伯塔大学(Univ of Alberta)的文章介绍了DeepStack,同样在3000局的比赛中击败了几位职业玩家.这样在非对称信息游戏上人类再一次输给了AI. 当然有AlphaGo的先例,这个对广大吃瓜群众的冲击可能没有那么大.但我个人觉得非对称信息博弈的实用价值更大些.因为非对称信息博弈的应用范围非常广泛,涵括我们每天遇到的所有决策,上至国家战略,下至

专访田渊栋 | Torch升级版PyTorch开源,Python为先,强GPU加速

专访Facebook研究员田渊栋和PyTorch作者Soumith 新智元 :田博士,关于PyTorch的发布,请问可以采访您几个问题嘛? 田渊栋 :哦,你要问什么?我可以把问题转给Soumith. 新智元 :请问 PyTorch 除了是基于 Python,其它架构是否与 Torch 一样? 田渊栋 :基本C/C++这边都是用的torch原来的函数,但在架构上加了 autograd 这样就不用写backward 函数,可以自动动态生成computational graph 并且自动求导,反向传递