【AI VS 人类新高峰】冷扑大师发明人:用于策略推理的超人AI

Tuomas  Sandholm:大家好,非常感谢新智元给我机会。今天我想跟大家分享不完全信息博弈,这跟西洋跳棋、围棋、象棋等其他完全信息博弈是不一样的。不完全信息博弈更像是谈判、扑克,适用于解决现实问题,因为现实生活中很多都是不完全信息。

接下来,我想给大家介绍一下 AI 如何进入到扑克游戏当中去,以及我们怎么样才能够应对在这些游戏中的超级复杂性。

首先我想大家都已经听说过AlphaGo,它是另外一种完全信息博弈。对于完全信息博弈来讲,你知道游戏是如何组成的。所以,在一定程度上,不完全信息博弈的难度比完全信息博弈的难度更大,需要完全不同的算法

让我来举例说明。

例1:我们不仅仅只为扑克游戏开发技术,也针对一般的游戏。我们来看一下这是扔硬币的游戏,扔硬币有一半的概率是正面,有一半的概率是反面,我们有两个玩家,一个是1号玩家,一个是2号玩家,如果P2猜对的话,P2就会得一分,P1就会减少一分,如果P2猜错的话P1就能得一分,我想说大多数的时候,大家都在不完全游戏博弈中见到过这样的一些游戏树形结构分析。

我们看一下这是信息集的相关信息,也就是说我们玩家到底应该怎么玩,各种不同的玩法。红色的玩家有两个信息集,基于这点他可以决定到底该怎么玩。第二个玩家不知道硬币是正面还是反面,二号玩家只有一个信息集,他每次玩的方法都是一样的,它的可能性也是一样的。

这里,主要的挑战首先是不确定别人会做什么以及相应的机会,也就是未知状态。而且,由于未知状态,我们不得不考虑我们的行为如何向对手传达我们的私人信息。相反,对手的行为如何向我们反映他们的私人信息。

而这正是博弈论中纳什均衡概念出现的地方。约翰·纳什在1950年发明了这个概念,它改变了经济学和许多其他科学。 1994年,他获得了诺贝尔奖。但是,当然,这只是有多个玩家时,并且均为理性玩家前提下的定义。它实际上没有做任何事情。所以为了实现这一点,你必须结合算法来根据纳什均衡实际来计算策略。

现在,这些独立于的技术成为扑克AI的基准。如果你回到约翰·纳什1950年的博士论文,你会发现,纳什均衡唯一的应用理论就是扑克。从那以后,扑克 AI 有了很多进展。大约 13 年前,这个领域真的有了很大发展。于2006年开始,每年举办年度计算机扑克挑战赛,世界各地不同的研究小组可以比较他们的结果,并逐年增加难度。这导致了核心技术推理方面的多个数量级的稳定改进。并且,有限下注的德州扑克问题在2015年已经得到解决。

因此,无限注德州扑克已成为人工智能不完全信息博弈的主要标杆和挑战问题。这是一个非常大的游戏。它有10的161次方个不同的情况,让我们停下来考虑一下这个数字。它不仅仅是宇宙中所有原子数量。而且,如果宇宙中的每个原子都有一个完整的另一个宇宙,并且计算这些子原子的数量,那么它也不止于此。你需要AI技术来解决它们。而之前没有人工智能能够击败顶级人类玩家。所以如果想想 AI 中的游戏,那么有很多很棒的子集,比如奥赛罗,跳棋,国际象棋和棋子。但是,无限德州扑克仍然是看不到,这是一场艰苦的比赛。因为它非常大,而且是一个不完全信息博弈。

所以,今年1月,我组织了AI复赛的春季版本。我之所以称之为复赛,是因为我在2015年的4月和5月组织了一场类似的比赛。当时我们无法在这场比赛中击败最好的玩家。我邀请了前十名中的4名无限德州扑克专家的专业人士到匹兹堡参加比赛。我们在20天内玩了12万手牌。

它和人类的游戏玩法非常不同,因为它不是从学习人类数据开始的。从刚刚输掉比赛开始,它就使用优化和AI来形成自己的策略。它和人类玩的很不一样。最终的结果是,我们的AI libratus在这场比赛中大大地击败了顶级人类大师。赢率达到99.98%的这是有统计学意义的。而且每个人都输给了冷扑大师。

之后,我们在中国的海口做了一个类似的比赛,我们打了3万6000手牌,对手是一个由六名中国扑克职业选手组成的队伍。奖金是200万人民币。对手做好了准备。所以他们不仅是扑克玩家,还是计算机科学家,机器学习专家。 他们中的一个是唯一的中国世界扑克锦标赛系列赛冠军。为了突破AI,他们事先研究了libratus的手牌历史。我们9场比赛中打了四天半。他们的策略是行不通的。冷扑大师,意思是“冷酷的扑克大师”,是libratus的中国版。它赢得了9场比赛的每一场胜利,同时也击败了每一个人。

libratus是如何工作的:三大模块

那么libratus是如何工作的呢?我经常被问到这个问题。所以现在我要讲讲这些AI背后的细节。

他们有三个主要模块。这些是主要的部分:一个是事件发生之前,我们将游戏的规则提供给抽象算法。它运行游戏的抽象,所以它是纳什均衡的近似值。然后有一个次游戏的解决者实时完善这些策略,然后在后台运行一个自我改进的算法。 

在比赛之前,我们运行了一台超级计算机。在使用libratus那一次,我们在匹兹堡超级计算中心的超级计算机上运行了大约1500万个小时。那么显然这个游戏太大了,不能直接解决,所以我们运行了一个抽象算法来创建一个更小的抽象游戏。然后,我们使用经典均衡寻找算法来寻找博弈的近似均衡。 

Libratus有一个计算近似纳什均衡策略的算法(这也是一个近似的最小最大策略)到抽象的游戏。它为AI的战略提供了一个高层次的蓝图。新算法是Monte Carlo对策略最小化算法的改进版本。主要的新方面包括以降低概率的方式抽取智能体的行为。这大大提高了算法的速度,从而使得更细粒度的抽象得到解决。

最先进的游戏抽象是不完美的 。正因为如此,游戏模型有多条路径到相同的抽象状态。这会导致不同的途径在这个智能体应该做的事情上“斗争”,这就提高了解决方案的质量。新的均衡发现算法也可以通过折扣一些路径来减少抽象状态的入度,从而减轻这个问题。

2.解决子游戏

Libratus有一个新的子游戏解决算法,重复计算一个更详细的策略,以上述蓝图策略为指导。这个算法的新方面包括以下内容。

到目前为止,考虑到对手的错误,安全的子游戏解决。子博弈求解器可以通过错误给予对手我们迄今在游戏中给予我们的数量,同时仍然是完全安全的(即不逊于预先计算的纳什均衡近似蓝图)。

我们使用这个观察来扩展子博弈求解器可以安全地优化的策略空间,从而使其能够比以前的子博弈求解器更好地发挥与对手可能持有的其他(非错误)双手相比更好的灵活性。

通常情况下,子博弈解决不完美信息游戏只进行一次子博弈时。相比之下,Libratus在每个对手在子游戏中移动之后解决每个剩下的子游戏。这样可以实现更细粒度的抽象,也可以避免反向映射对手的抽象外动作和抽象抽象动作的缺点,因为对手的确切动作被添加到剩下的子游戏中。

子游戏的解决在游戏的早期阶段开始(在任何足够大的下注周期,但不迟于第三轮下注开始时)。在子游戏解决中没有抽象卡。

在子游戏解决之前,噪音被添加到动作抽象中。这使得Libratus难以发挥,因为它在每一手牌后都改变了赌注大小。

3.自我改进

Libratus有一个自我完善的模块,它随着时间的推移增加了预先计算的蓝图,以便基于对手已经能够识别哪些漏洞(抽象操作,即扑克中的下注大小),甚至更接近纳什均衡。这与以前在游戏中学习的方法形成了鲜明的对比,在游戏中,目标通常是建模和开发。相比之下,Libratus的自我改进是普遍的。

对于冷扑大师的比赛观察。我们决定对于这些顶级的玩家,我们不想让自己有太多的漏洞给对方,所以我们这里没有对手的漏洞分析,这是我们的弱点。


现在我给大家介绍一下我们将会在其他方面要开展的研究。第一方面是有损耗的边界提取,所以我们要对于现实进行一定的抽象提取,否则的话就会有问题,我们需要有更多的关于损耗提取的一些计算,否则这种游戏就不能够很好地继承下去。同样这也被用在不同的模型方面,我们发现现在有很多的模型对于现实来讲并不是非常的优化,所以我们也是希望能够找到更加优化的模型。另外我们要找到新的基于梯度的平衡的计算,在今年夏天我们已经出台了一个相关的方法,现在速度已经非常的快了。

另外一点,对于均衡计算我们要进行进一步的优化,在深度学习来讲有第三个维度,也就是说对于探索来讲开放程度会有多大,我自己也要进行充分的开放,进行进一步的探索。但是我们在进行探索之前是需要进行充分的准备,现在我们对于这种技术已经进行很多不同的应用了,我们现在也要运用这些新的技术,要有这种方面的应用能力,在这种信息不全的游戏之下,我们需要有更多的人机互动,我们在玩的时候,不仅仅只是需要一个玩家,所以在我们来应用新技术的时候,我们有几点是需要进一步的改良,我们要进行更好的人机互动,在这里我们需要提前考虑到游戏的一些玩法。

另外还有像融资、战略性的一些定价,以及战略性的产品组合的优化等等,还有像金融方面,比如说战略性的一些资产组合的构建,另外还有自动化的磋商,以及磋商的支持等,另外还有一些企业的战略,我们在企业的战略当中应该有我们的一些玩法。

另外在进行拍卖的时候,也可以采用相关的技术,这一点也是非常的有益。像电影相关的内容,在虚拟性安全等等,以及在政治方面进行竞选,在自动化驾驶的汽车或者是舰队,或者半自动化的舰队等等,我们可以跟人机之间建立起一些互动,但是我们应该建立一些相关的规则,就是在人机互动的时候,另外在军事方面的安全等等,在生物应用等等,比如在医疗、治疗、规划的时候,我们在预防一些疾病或者是感染以及像癌症等等,所有的这些领域我们都可以采用新的技术,另外在培训以及在娱乐行业也可以有更多的相关技术的应用。

我想说机器学习只是人工智能的一部分,人工智能可以在其他领域可以进一步应用,比如在战略推理也可以有更多的人工智能相关的应用。我们认为对于战略性的推理来讲,实际上我们更多的不仅仅是关注于过去,而是更多地关注于未来。从过去进行学习,这是我们进行战略性推理的一部分,比如说在我们进行人机交互的时候,应该对我们的对手进行更多的分析,来进行进一步的推理等等。谢谢大家。

原文发布时间为:2017-11-12

本文作者:AIWORLD2017

原文链接:【AI VS 人类新高峰】冷扑大师发明人:用于策略推理的超人AI

时间: 2024-11-08 18:16:21

【AI VS 人类新高峰】冷扑大师发明人:用于策略推理的超人AI的相关文章

【NIPS最佳论文引发深度学习论战】AlphaZero能击败冷扑大师吗?No(Science论文)

NIPS2017的最佳论文今年被"冷扑大师"拿下,在深度学习大行其道的今天,一个使用非深度学习方法的研究拿下最佳论文,着实有些意外,算是"冷扑大师"创造的一个小冷门. 12月18日,<Science>上发布了题为<Superhuman AI for heads-up no-limit poker: Libratus beats top professionals>的文章,介绍"冷扑大师"的工作原理.同一天,论文的两位作者-

45小时德扑人机大战今日开战,冷扑大师多次受信号延迟之困

"如果AlphaGo是超级IQ天才,那么'冷扑大师'就是超级EQ天才."李开复如此描述这一场刚刚开场的德扑人机大战. 4月6日至10日,冷扑大师V.S.中国龙之队将在海南展开为期五天.长达45小时的人机扑克对战. 今日的比赛原计划于8点开始,但人类牌手到场后,比赛一直推迟至9点过才正式打响.据悉,比赛推迟是由于现场网络问题,"冷扑大师"期间似乎还经历了重启.比赛过程中,"冷扑大师"也多次困于网络延迟问题,出牌略慢. 今天开始,"冷扑大师

清华量子计算大师应明生独家专访:AI未来一定会以新的形式重生

近年来,人工智能和量子计算两大领域双双被人们寄予厚望,特别是被国人当成是"超英赶美".弯道超车的两大历史机遇.量子计算机是指利用量子相干叠加原理,量子比特的独特属性使量子计算机在处理一些运算的时候速度更快,理论上具有超快的并行计算和模拟能力的计算机.量子计算机代表着突破被纳米层面限制的摩尔定律,意味着巨大的计算力潜能.曾有人打过一个比方:如果现在传统计算机的速度是自行车,量子计算机的速度就好比飞机. 计算力正是AI三大法宝之一.现有计算机已经能够支持AlphaGo这样的"围棋

陈浩:计算机天才用AI拯救人类,机器人看病不再遥远

过去20年,我们经历了PC互联网.移动互联网的大潮;而今,"智能互联网"已经呼啸而来."IOT+边缘计算+云+大数据+人工智能"整个链条相互作用.共同发力,让智能互联网释放了无穷能量,为传统行业赋予了无限生机.契合新时代需求,联想近期发起了"全国高校AI精英挑战赛",专门拨出1亿元基金,深挖人工智能及相关领域的创新技术及应用,旨在改变人类生活方式.推进行业发展和社会生产.与此同时,我们也筛选出联想创投成员企业中AI领域的佼佼者,深度挖掘这些优秀企

&quot;LSTM之父&quot;Jürgen Schmidhuber:我一直在努力实现三十年前的目标 “AI奴役人类”很愚蠢

9月12日上午,南京金秋洽谈会"2017中国人工智能峰会(CAIS 2017)"在南京国际博览会议中心盛大开幕.本次峰会以"创新.变革.突破"为主题,并设两大主题论坛,共吸引了30余位人工智能领域著名的科学家.企业领袖亲临现场,1500余名专业观众报名参会,雷锋网作为受邀媒体参加了本次峰会并进行了报道. 在大会上,瑞士人工智能实验室 IDSIA 主任."LSTM之父"Jürgen Schmidhuber发表了名为<True Artifica

【星际争霸人类战胜机器】韩国选手4:0战胜Facebook等机构AI

 韩国的专业玩家在星际争霸游戏中以4:0的比分战胜了AI. 在人与AI最近的一次遭遇战中,韩国的专业玩家在星际争霸游戏中以4:0的比分战胜了AI.比赛于本周二在韩国的世宗大学举行. 虽然AI在本次比赛中击败了两位业余玩家,但是,在对阵专业级玩家宋炳具(Song Byung-gu)时,它们输掉了所有的比赛.宋炳具被认为是世界上最好的星际争霸职业选手之一. 参加本次比赛的AI系统有四个,分别是:来自韩国世宗大学的MJ Bot.来自澳大利亚的ZZZK.来自挪威的TSCMOO和来自Facebook的Ch

2017年全球最热论文Top 100,AlphaGo Zero、AI超越人类等入选

伟大的科研结果往往引起大量的社会关注和实际影响.Altmetric score 是对基于引用数的传统论文计量方法的一种补充,是科研论文发表后的国际关注度的一个指标,衡量的因素包括新闻报道.博客.推特.Facebook.新浪微博.维基百科等.Altmetric的数据来源于互联网,提供了有关期刊论文和其他学术成果在世界各地探讨和应用情况的信息,目前已被应用于<自然>.<科学>.<柳叶刀> 等期刊网站,以及许多机构数据库和研究者个人网站中. 在过去的一年里,Altmetric

AI留给人类的时间已不多:《未来简史》作者赫拉利Nature来信

眼下正在进行当中的这场AI革命将改变几乎所有行业的工作,这在创造巨大的社会和经济机遇的同时,也将带来重大挑战. 一些人认为,拥有智能的计算机将把人类排挤出就业市场,制造一个新的"无用阶层":其他人则坚称,自动化技术将为全人类创造广泛的就业机会和更大的繁荣.但是,几乎所有人都同意,我们应该采取行动,防止最坏的情况发生. 自动化革命正从两股科技浪潮的交汇点浮现出来.计算机科学家正在开发可以学习.分析海量数据.以超人效率进行模式识别的AI算法:与此同时,生物学家和社会科学家正在破译人类的情感

开放式智能感知平台xPerception:解决AI和人类、虚拟与现实之间的“最后一公里”

眼睛是人类接触外部世界的第一感官.而对计算机来说,它们的"眼睛"就是计算机视觉感知技术.正是由于这种技术,计算机才从只会执行命令的机器,走上了成为有智慧的人工智能的第一步. 一家来自硅谷的技术创新公司,xPerception,就希望能够赋予世界上的机器人这样的感知能力.他们开发的智能感知计算模块,集成了感知.定位.避障和导航技术.模块提供媲美Google Tango和英特尔RealSense的感知技术,为第三方手机.VR设备.机器人等提供包括定位.识别.3D重建等功能在内的软硬件一体化