完爆阿尔法狗元,DeepMind用5000台TPU训练出新算法,1天内称霸3种棋类

距离阿尔法狗元版本刷屏一个多月时间,阿尔法狗又进化了,这次不光可以玩围棋,不再是“狗”了。我一点也不惊讶。

在用阿尔法狗(AlphaGo)和阿尔法狗元(AlphaGo Zero)称霸围棋世界后,当地时间周二晚,DeepMind的研究组宣布已经开发出一个更为广泛的阿尔法元(AlphaZero)系统,它可以训练自己在棋盘,将棋和其他规则化游戏中实现“超人”技能,所有这些都在一天之内完成,并且无需其他干预,战绩斐然:


4个小时成为了世界级的国际象棋冠军;
2个小时在将棋上达到世界级水平;
8个小时战胜DeepMind引以为傲的围棋选手AlphaGo Zero。


这不禁让文摘菌想到了落入乾坤一气袋的张无忌瞬间精进的场景:

在各路高手的真力激荡之下打通数十处玄关,练成了独步天下的九阳神功,从此化身武林学霸。短短几个时辰内就练成了第七层乾坤大挪移,无论是太极拳剑还是圣火令武功都手到擒来,成为武林的百科全书。

尽管如此,阿尔法元(AlphaZero)距离一个真正的通用目标,独立AI,还有一定的距离 。国际象棋和将棋是比较容易的测试,因为它们比围棋简单。而像“星际争霸2”这样复杂的视频游戏完全是另一码事,更不用说散步、艺术或抽象思维等模糊的概念了。

另外还有速度的问题:虽然用来学习棋盘游戏的时间少于24小时,但对于AI需要现场适应的情况,速度太慢。DeepMind报告也说,训练该软件使用了5064台功能强大的定制机器学习处理器(被称为TPU)。(简直野蛮暴力)

但仍然不可否认,这是人工智能迈出的重要一步。

回忆人工智能的历史,很多人的印象都是一堆“各类技能”冠军——井字棋、跳棋和国际象棋。几十年来,研究人员已经研制了一系列超级专业的程序,在越来越高难度的游戏中击败人类。近期在围棋上,Deepmind的阿尔法狗也超越了人类。但是,这些人造冠军们的共同弱点是——都只能玩某一种精心设计的游戏。而人类即使在某些技能上输了,在精通多种技艺这一点上,仍然完爆人工智能。

近日,DeepMind官方宣布了第一个多技能的AI棋类游戏冠军程序。当地时间周二晚,Deepmind发布的一篇论文描述了一款名为AlphaZero的软件,它可以在三种具有挑战性的游戏中自学,表现超越人类:国际象棋,围棋或将棋(亦称日本象棋)。

DeepMind在文章中描述了AlphaZero的学习过程。人类不再是国际象棋,围棋和将棋中最好的选手,所以AlphaZero就用最好的专业人工选手(计算机程序Stockfish、Elmo、AlphaGo Zero)进行测试。这个新程序很快就打败了这三个人工棋手:

只用了4个小时成为了世界级的国际象棋冠军;用2个小时在将棋上达到世界级水平;只花了8小时战胜DeepMind引以为傲、也是之前已知最好的围棋选手AlphaGo Zero。

图:经过70万步训练的AlphaZero。它的对手是国际象棋的2016TCEC世界冠军程序Stockfish,将棋的2017CSA世界冠军程序Elmo,和大家都知道的AlphaGo Zero。每一手棋双方只有1秒的反应时间。

DeepMind也表示,新程序AlphaZero模仿AlphaGo Zero,通过同样的自我对练机制学习。AlphaZero核心的算法是它的升级版本,能够搜索更广泛的可能策略以适应不同的游戏。

AlphaZero可以从头开始学习三个游戏中的每一个,尽管它需要按照每个游戏的规则进行编程。该程序通过与自己对练提高技能成为专家,尝试不同的玩法来发现获胜的途径。

图:人类常用的国际象棋的12种开局方式解析

AlphaZero还没有办法学会同时参加三场比赛。但是,一个程序学习三种不同的复杂游戏,能达到如此高的水平,还是惊人的,因为AI系统——包括那些可以“学习”的——通常是非常专业的,需要经历磨练来解决特定的问题。即使是最好的人工智能系统也不能在两个问题之间进行泛化——因此,许多专家认为机器要取代人还有很长一段路要走。

AlphaZero可能是AI系统走向非专门化的一小步。纽约大学教授Julian Togelius在周二发布的推文中指出,真正泛化的AI还道阻且长,但称DeepMind的论文“非常出色”。

图:国际象棋和将棋中,AlphaZero每一手棋的思考时间,和相应的模型表现(Elo)

而DeepMind的这一研究进展对于业界来说也非常重要。更灵活的机器学习软件可以帮助谷歌加速在业务内部扩展人工智能技术。DeepMind最新发明中的技术也可能帮助团队挑战视频游戏“星际争霸”(StarCraft),后者已经成为它的下一个目标。一个流行的商业视频游戏似乎没有正式而抽象的棋盘游戏那么令人生畏。但“星际争霸”被认为复杂度更高,因为它各种变量和特征的安排自由度更大,玩家必须预见对手不可见的行为。

相比可以学习三个以上的棋盘游戏,并能解决各种空间,常识,逻辑,艺术和社会难题的人脑,AlphaZero的智力水平仍然有限。

DeepMind论文中显示,AlphaZero在三种游戏中使用了同样的算法设置、神经网络结构和超参数。训练过程包括70万步(4096大小的mini-batch),从随机生成的参数开始,使用了5000台TPU生成自对抗的棋局,接着使用64台TPU训练神经网络。

一共5064台TPU!文摘菌不得不感慨“何以解忧,唯有暴富”。

相较于阿尔法狗元(AlphaGo Zero)用到的64台GPU和19台CPU,AlphaZero的算力可谓得到了指数级提升。算法的训练时间也从阿尔法狗元的“几天”提升到了现在的“8小时”。

回头看看战胜了李世石和柯洁的惊天动地的阿尔法狗,已经显得像原始人了。它用到了1920台CPU和280台GPU,需要训练几个月。

人工智能的发展,有3个驱动力——数据、算法、算力。神经网络的“左右互搏”在数据和算法上做出了突破,而谷歌的TPU计算资源支持更是AlphaZero致胜的秘诀之一。

从10月底围棋超人阿尔法狗元的诞生,到12月进化成三种棋类超人阿尔法元,不过只用了短短一个多月的时间。

原文发布时间为:2017-12-7

本文作者:文摘菌

时间: 2024-07-28 19:03:32

完爆阿尔法狗元,DeepMind用5000台TPU训练出新算法,1天内称霸3种棋类的相关文章

【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏

世界最强围棋AI AlphaGo Zero带给世人的震撼并没有想象中那么久--不是因为大家都去看谁(没)跟谁吃饭了,而是DeepMind再次迅速超越了他们自己,超越了我们剩下所有人的想象. 12月5日,距离发布AlphaGo Zero论文后不到两个月,他们在arXiv上传最新论文<用通用强化学习算法自我对弈,掌握国际象棋和将棋>(Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algori

完爆小米4冲出包围圈 解读魅族MX4的四大杀招

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;                       完爆小米4冲出包围圈 解读1799元魅族MX4的四大杀招 魅族MX4的发布不得不说确实让小米感受到了更进一步的威胁,从这几天发布后的情况来看,魅族MX4已经冲出小米4和华为荣耀6的重重包围圈,稳稳地占据了市场上的一席之地. 魅族MX4成为近期焦点中的焦点,即便在IFA2014大展新机潮爆发的冲击下,也丝毫没有示弱,从该机选

那些被Win8完爆的WinXP功能

  Win8新功能完胜XP 根据此前的一项调查数据显示,目前仍有近50%的笔记本在使用Windows XP系统,而全球 范围内的XP份额也仍然有20.36%.但这种情况真的合理吗?在经过了13年之后,陈旧的XP系统在功能上已经落后了整整一个时代,与最新的 Windows 8.1相比更是缩水得严重. 整个Windows 8新生态圈的缺失 在Win8系统中一个新的生态圈不得不被提及,那就是最早被称作"Metro"的界面,也就是现在的"开始"界面.这套新的系统在ARM构架

神舟手机跑分完爆红米引热议:狗米欺骗大众

自去年神舟电脑突袭手机市场后,业界一直冠其"搅局者"称号.日前,一份关于神舟灵雅H45 T2与红米手机跑分对比的贴子在网上热转,售价仅499元的灵雅H45安兔兔跑分为17406;而号称"专为跑分而生"的红米手机得分仅为16072,两者相差1000多分,而售价相差300元.网友wadewangrui甚至高呼,原来狗米欺骗大众! 据了解,神舟手机2013年12月115.html">26日http://www.aliyun.com/zixun/aggreg

跑分18000!疑似荣耀3C跑分曝光 完爆红米

来自华为荣耀首席架构师@吴德周HW&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;昨夜泄露的18000跑分图,再次震爆眼球.18000的超高跑分完 爆红米,而通过@张晓云Glory 的微博证实,该手机为千元级别, 所以极有可能是荣耀3C跑分提前 曝光!

限量5000台爱心红版OPPOFind5开售

泡泡网手机频道7月10日去年的今天,大病医保公益组织在多名公众知名人士的发起下正式成立,为中国乡村儿童免费提供一份医疗保险,争取儿童医疗平等.在这项有意义事情一周年之际, OPPO并称献爱心的承诺,在线上线下同时发售红色版的OPPO Find 5.每售出一台,将捐赠75元的爱心医保.此版本被OPPO成为爱心红版本,专为"大病医保公益组织"定制推出,限量5000台.OPPO Find5 X909 16G版3G手机(黑色)WCDMA/GSM联通裸机版 广东联通:¥2799.00|亚马逊:¥

5000台超级电视X60和S40将在乐视商城开放购买

作为"乐迷节"的礼物,今天中午12:00开始,5000台超级电视X60和S40将在乐视商城(shop.letv.com)开放购买,今天成功购买超级电视的用户,均可获赠价值280元的超级遥控器,乐视TV将送出礼品总价值将超过200万.据了解,超级电视物流配送城市已覆盖172个城市,这些城市的乐迷均可参与今天的活动.除了超级遥控器,在"乐迷日"购买超级电视的乐迷还可获赠云底座.不同额度的乐视网TV会员卡等.购买超级电视X60套餐(云底座)的乐迷,在获赠超级遥控器之外,还

5000台超级电视12点开抢乐视TV送价值超200万大礼

10月18日消息,作为"乐迷节"的礼物,今天中午12:00开始,5000台超级电视X60和S40将在乐视商城(shop.letv.com)开放购买,今天成功购买超级电视的用户,均可获赠价值280元的超级遥控器,乐视TV将送出礼品总价值将超过200万.据了解,超级电视物流配送城市已覆盖172个城市,这些城市的乐迷均可参与今天的活动.除了超级遥控器,在"乐迷日"购买超级电视的乐迷还可获赠云底座.不同额度的乐视网TV会员卡等.购买超级电视X60套餐(云底座)的乐迷,在获赠

魅蓝Note真机图赏美女配魅蓝完爆红米Note

12月23日消息,魅族于今日下午在京召开了旗下子品牌魅蓝的发布会,同时发布会了魅蓝首款千元机 魅蓝Note.在魅蓝Note的发布会上,红米Note不幸中枪,白永祥认为魅蓝Note的性能可以完爆红米Note.魅蓝Note的配置可谓千元机里最为亮眼的,尤其是突出了摄像头功能以及可长达2天待机时间的电池容量.魅蓝Note搭载5.5英寸屏幕,使用全高清(1920x1080)分辨率,搭载主频1.7Ghz的64位八核处理器以及双核图形处理器.配备2GB内存,分为16GB版和32GB版,电池容量达3410毫安