Open AI如何用“自我对局”训练AI机器人变身“摔角王”?

本文讲的是Open AI如何用“自我对局”训练AI机器人变身“摔角王”?,


OpenAI 于近日的一项研究中发现,在一个非明确的技能训练的环境中,AI 能够通过“自我对局”的训练掌握一系列动作技能,比如进攻、躲避、假动作、踢、抓等等。“自我对局”训练确定了环境对于提升AI系统的重要性。Dota2在“自我对局”训练中的表现和结果让团队越来越相信,“自我对局”训练不久将会成为AI系统的核心。雷锋网AI科技评论对本文进行编译,全文如下:

论文原文:https://arxiv.org/abs/1710.03748

代码:https://github.com/openai/multiagent-competition

我们在几个3D机器人之间设置了一些基本的游戏竞赛,利用一些简单的目标(比如:将对手推到场地圈外;到达场地的另一边,并阻止对手到达;把球踢进对手的网内,而不让对手的球踢进自己的网内等。)对每个机器人进行训练,并且分析机器人在完成目标时所使用的技能和策略。

一开始,机器人会因为站立、前进这样的行为而获得丰厚的奖励,但最后这些奖励会被清零,只有胜利的机器人才会获得奖励。除了这些简单的奖励以外,机器人还会学到一系列动作技能,比如进攻、躲避、假动作、踢、抓等等。在这个过程中,每个机器人的神经网络都单独接受了“近端策略优化” 的训练。

为了弄清楚在这些目标和竞赛的压力面前,机器人会作出如何复杂的行动,我们不妨分析一下机器人的“摔角相扑”比赛吧。在这个比赛中,为了训练机器人行走,我们在比赛前期给机器人设置了丰厚的奖励;增加了从这个圆形场地中心起的负L2距离,并且将其设置为机器人获得的丰厚奖励。机器人一开始的时候可以使用这些奖励在比赛场地内作出一些动作和反应,但是我们会在训练中把奖励悄悄地清零。这样一来,在接下来的训练迭代中,机器人才会为了得到更多的奖励,自觉地对自己的动作和技能进行优化。

设计出有助于这些技能训练的任务和环境并非不可能,但这不仅需要研究员耗费大量的精力,还需要他们具备独到的创意。此外,机器人的行为也可能会因为人类设计师在设计中出现的问题而变得更复杂。通过成千上万次的迭代优化,我们能够开发出更好的机器人,进而可以创造出功能强大的AI系统,该系统能够自我引导,并完成性能自我优化。在Dota2项目中我们也能发现类似的自我优化现象。在Dota2项目中,“自我对局”训练让我们成功创造出了一个能够在电子竞技的solo版本中击败顶级人类玩家的强化学习机器人。

迁移学习

刚刚完成“摔角相扑”训练的机器人,现在又要开始应对“强风”了。

这些机器人还能进行“迁移学习”,它们能够把在一场景学习到的技能运用于另一个从未接触过的场景。在一个案例中,我们给那些经过了“摔角相扑”训练的机器人设置了一个任务,让它们在强风中始终保持站立。结果是,那些无视这个强风环境的机器人能够始终保持直立,而接受过传统强化学习训练的机器人在尝试行走时则会立刻摔倒。

过拟合

我们的机器人会与“co-learning策略”发生过拟合,该策略是针对某些特定的对手而设计的,但是在面对新的对手时,这个策略就会失效。针对这一问题,我们的解决方案是——让机器人与多个不同的对手进行“较量”。这些对手来自于一系列的策略,其中有同步训练或早期训练的策略。面对这些各式各样、风格不一的对手,机器人就必须学习更多通用的策略和技术,这样才能“来者不惧”。






本文作者:图普科技

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-30 07:22:35

Open AI如何用“自我对局”训练AI机器人变身“摔角王”?的相关文章

OpanAI公布Dota AI比赛细节,自我对局让它超越人类

在攻克了围棋以后,人工智能研究者们似乎不约而同地把电子竞技游戏作为了下一个练兵场.雷锋网(公众号:雷锋网)上周报道,在Dota2国际邀请赛TI7上,OpenAI率先展示了自己的成果,在西雅图让AI在1v1比赛中击败了职业选手,又一次点燃了关于AI的讨论. 雷锋网对比赛结果也进行了诸多分析,就目前的资料来看,其实1v1比赛可能较围棋来得简单,在1v1比赛中取胜,也不能说明在5v5的完整比赛中能战胜人类,人类还保有一定的尊严. 经过约一周的时间,OpanAI最终公布了Dota AI的一些细节,不过它

【重磅】新智元推出百万级AI智库资讯互动平台,AI World2017世界人工智能大会TOP10大奖榜单发布

2017年11月8日,由新智元主办的 AI World 2017 世界人工智能大会在北京国家会议中心隆重启幕,国内外上百位AI领袖作了覆盖技术.学术和产业最前沿的报告和讨论.超过2000名 AI 精英共襄盛会.海淀区副区长李长萍.中国人工智能产业发展联盟副秘书长何宝宏为大会致辞.会上,新智元创始人兼CEO杨静与助理来也CTO胡一川发布了全球首个AI专家互动资讯平台"新智元V享圈",基于此打造百万级AI产业生态平台. AI World 2017 世界人工智能大会 "AI奥斯卡&

伯克利AI实验室最新发文:公布用于机器人抓取的Dexterity Network (Dex-Net) 2.0数据集

雷锋网AI科技评论按:伯克利AI实验室最新发文公布了用于机器人抓取的Dexterity Network (Dex-Net) 2.0数据集,这些数据集可以用来训练根据实际机器人的点云做抓取规划的神经网络. 本文作者为加州大学伯克利分校博士后研究员Jeff Mahler.雷锋网(公众号:雷锋网)全文翻译如下: 由于传感器噪声和遮挡的存在,物体的形状.位置和质量往往不能被精准确定,因此让机器人能够可靠地抓取各种不同的物体是很大的一项挑战. Dexterity Network(Dex-Net)2.0是一

基层医疗机构是否需要 AI 、是否会用 AI 、能否用得起 AI ?

雷锋网消息,近日,位于河南洛阳的栾川县人民医院出现了一个医生助手-- VGo 远程会诊机器人,借助现代网络通讯技术与请求会诊的其他医院进行对接.然后通过网络传输.视频对话等方式,开展医学会诊.咨询和医学教育等活动. 远程会诊机器人属于"互联网+医疗"的模式.英特尔医疗与生命科学部亚太区总经理李亚东曾表示,这一模式提高了整个医疗系统运行的效率,比如在挂号.网上轻问诊.在线支付等方面做了很多工作,取得了很多成绩,但是还没有走进院内,没有触及医疗本身. 李亚东指出,医疗健康的需求端急剧上升和

AI不可怕,就怕AI会画画——这里有一种你还不知道的‘图’灵测试…

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 0. 引言 有人说,阿尔法狗,So TM What? 还有人说,AI(人工智能)有什么可怕的?它们不过是做一些人类不愿做的脏活.累活和一些可批量重复操作的活计,而对一些带有原创性质的活,比如艺术创作,AI就不灵光了. 喂,喂,喂,且慢,且慢,先进来看看这里的'图' 灵测试,再说. 目前我们所说的人工智能,在很大程度上,偏向于指基于深度神经网络的机器学习(简称深度学习).深度学习现在非常火,有点甚嚣尘上,它的确

是时候给AI减负了,Python五大AI库推荐

文章讲的是是时候给AI减负了,Python五大AI库推荐,机器学习是件令人兴奋的事,但一系列工作是复杂和困难的.作为一名开发人员,要学习的工具实在是太多太杂了.幸运的是,Python是一种广泛应用于大数据和机器学习各类工具上的语言,使用范围极广.机器学习通常涉及大量手动提升的工作,组装工作流和管道.设置数据源以及在内部和云部署的资源之间来回分流.以下这五大Python库可帮助加快数据管道,例如,使用AWS Lambda可对计算量较大的作业进行碎片处理,使用TensorFlow模型可减轻Tenso

花旗报告揭秘2016全球FinTech变革全景、“AI如何落地”公开课分享 | AI金融评论周刊

花旗报告:2016 全球 FinTech 变革全景揭秘,及 2017 年前景展望 雷锋网(公众号:雷锋网)此前报道,今年 1 月,花旗研究团队再次聚焦FinTech金融科技,并发布更新版调研报告<重新审视数字化颠覆:FinTech 风险投资背后隐藏的行业变革(DIGITALDISRUPTION- REVISITED : What Fintech VC Investments Tell us About a Changing Industry)>.其中,该报告除了对 Fintech 行业投资全景

如何用TensorFlow训练聊天机器人(附github)

前言 实际工程中很少有直接用深度学习实现端对端的聊天机器人,但这里我们来看看怎么用深度学习的seq2seq模型来实现一个简易的聊天机器人.这篇文章将尝试使用TensorFlow来训练一个基于seq2seq的聊天机器人,实现根据语料库的训练让机器人回答问题. seq2seq 关于seq2seq的机制原理可看之前的文章<深度学习的seq2seq模型>. 循环神经网络 在seq2seq模型中会使用到循环神经网络,目前流行的几种循环神经网络包括RNN.LSTM和GRU.这三种循环神经网络的机制原理可看

【硅谷连线】自我组装廉价纸机器人 或可用于探索太空

中云网每天连线硅谷,呈现最新鲜资讯!这里的"硅谷"指的是国外具有典型性和创新性企业代表. 1. Facebook收购互联网安全公司PrivateCore <http://tech.sina.com.cn/i/2014-08-08/03509542196.shtml> Facebook周四宣布,该公司将收购互联网安全企业PrivateCore,后者可帮助Facebook保护其服务器和数据中心.PrivateCore成立于2011年,总部位于美国加州城市帕洛阿尔托,曾于2012