Open AI如何用“自我对局”训练AI机器人变身“摔角王”？

本文讲的是Open AI如何用“自我对局”训练AI机器人变身“摔角王”？，

OpenAI 于近日的一项研究中发现，在一个非明确的技能训练的环境中，AI 能够通过“自我对局”的训练掌握一系列动作技能，比如进攻、躲避、假动作、踢、抓等等。“自我对局”训练确定了环境对于提升AI系统的重要性。Dota2在“自我对局”训练中的表现和结果让团队越来越相信，“自我对局”训练不久将会成为AI系统的核心。雷锋网AI科技评论对本文进行编译，全文如下：

论文原文：https://arxiv.org/abs/1710.03748

代码：https://github.com/openai/multiagent-competition

我们在几个3D机器人之间设置了一些基本的游戏竞赛，利用一些简单的目标（比如：将对手推到场地圈外；到达场地的另一边，并阻止对手到达；把球踢进对手的网内，而不让对手的球踢进自己的网内等。）对每个机器人进行训练，并且分析机器人在完成目标时所使用的技能和策略。

一开始，机器人会因为站立、前进这样的行为而获得丰厚的奖励，但最后这些奖励会被清零，只有胜利的机器人才会获得奖励。除了这些简单的奖励以外，机器人还会学到一系列动作技能，比如进攻、躲避、假动作、踢、抓等等。在这个过程中，每个机器人的神经网络都单独接受了“近端策略优化” 的训练。

为了弄清楚在这些目标和竞赛的压力面前，机器人会作出如何复杂的行动，我们不妨分析一下机器人的“摔角相扑”比赛吧。在这个比赛中，为了训练机器人行走，我们在比赛前期给机器人设置了丰厚的奖励；增加了从这个圆形场地中心起的负L2距离，并且将其设置为机器人获得的丰厚奖励。机器人一开始的时候可以使用这些奖励在比赛场地内作出一些动作和反应，但是我们会在训练中把奖励悄悄地清零。这样一来，在接下来的训练迭代中，机器人才会为了得到更多的奖励，自觉地对自己的动作和技能进行优化。

设计出有助于这些技能训练的任务和环境并非不可能，但这不仅需要研究员耗费大量的精力，还需要他们具备独到的创意。此外，机器人的行为也可能会因为人类设计师在设计中出现的问题而变得更复杂。通过成千上万次的迭代优化，我们能够开发出更好的机器人，进而可以创造出功能强大的AI系统，该系统能够自我引导，并完成性能自我优化。在Dota2项目中我们也能发现类似的自我优化现象。在Dota2项目中，“自我对局”训练让我们成功创造出了一个能够在电子竞技的solo版本中击败顶级人类玩家的强化学习机器人。

迁移学习

刚刚完成“摔角相扑”训练的机器人，现在又要开始应对“强风”了。

这些机器人还能进行“迁移学习”，它们能够把在一场景学习到的技能运用于另一个从未接触过的场景。在一个案例中，我们给那些经过了“摔角相扑”训练的机器人设置了一个任务，让它们在强风中始终保持站立。结果是，那些无视这个强风环境的机器人能够始终保持直立，而接受过传统强化学习训练的机器人在尝试行走时则会立刻摔倒。

过拟合

我们的机器人会与“co-learning策略”发生过拟合，该策略是针对某些特定的对手而设计的，但是在面对新的对手时，这个策略就会失效。针对这一问题，我们的解决方案是——让机器人与多个不同的对手进行“较量”。这些对手来自于一系列的策略，其中有同步训练或早期训练的策略。面对这些各式各样、风格不一的对手，机器人就必须学习更多通用的策略和技术，这样才能“来者不惧”。

本文作者：图普科技

本文转自雷锋网禁止二次转载，原文链接

时间： 2024-10-30 07:22:35

Open AI如何用“自我对局”训练AI机器人变身“摔角王”？的相关文章

OpanAI公布Dota AI比赛细节，自我对局让它超越人类

在攻克了围棋以后,人工智能研究者们似乎不约而同地把电子竞技游戏作为了下一个练兵场.雷锋网(公众号:雷锋网)上周报道,在Dota2国际邀请赛TI7上,OpenAI率先展示了自己的成果,在西雅图让AI在1v1比赛中击败了职业选手,又一次点燃了关于AI的讨论. 雷锋网对比赛结果也进行了诸多分析,就目前的资料来看,其实1v1比赛可能较围棋来得简单,在1v1比赛中取胜,也不能说明在5v5的完整比赛中能战胜人类,人类还保有一定的尊严. 经过约一周的时间,OpanAI最终公布了Dota AI的一些细节,不过它

【重磅】新智元推出百万级AI智库资讯互动平台，AI World2017世界人工智能大会TOP10大奖榜单发布

2017年11月8日,由新智元主办的 AI World 2017 世界人工智能大会在北京国家会议中心隆重启幕,国内外上百位AI领袖作了覆盖技术.学术和产业最前沿的报告和讨论.超过2000名 AI 精英共襄盛会.海淀区副区长李长萍.中国人工智能产业发展联盟副秘书长何宝宏为大会致辞.会上,新智元创始人兼CEO杨静与助理来也CTO胡一川发布了全球首个AI专家互动资讯平台"新智元V享圈",基于此打造百万级AI产业生态平台. AI World 2017 世界人工智能大会 "AI奥斯卡&

伯克利AI实验室最新发文：公布用于机器人抓取的Dexterity Network (Dex-Net) 2.0数据集

雷锋网AI科技评论按:伯克利AI实验室最新发文公布了用于机器人抓取的Dexterity Network (Dex-Net) 2.0数据集,这些数据集可以用来训练根据实际机器人的点云做抓取规划的神经网络. 本文作者为加州大学伯克利分校博士后研究员Jeff Mahler.雷锋网(公众号:雷锋网)全文翻译如下: 由于传感器噪声和遮挡的存在,物体的形状.位置和质量往往不能被精准确定,因此让机器人能够可靠地抓取各种不同的物体是很大的一项挑战. Dexterity Network(Dex-Net)2.0是一

基层医疗机构是否需要 AI 、是否会用 AI 、能否用得起 AI ?

雷锋网消息,近日,位于河南洛阳的栾川县人民医院出现了一个医生助手-- VGo 远程会诊机器人,借助现代网络通讯技术与请求会诊的其他医院进行对接.然后通过网络传输.视频对话等方式,开展医学会诊.咨询和医学教育等活动. 远程会诊机器人属于"互联网+医疗"的模式.英特尔医疗与生命科学部亚太区总经理李亚东曾表示,这一模式提高了整个医疗系统运行的效率,比如在挂号.网上轻问诊.在线支付等方面做了很多工作,取得了很多成绩,但是还没有走进院内,没有触及医疗本身. 李亚东指出,医疗健康的需求端急剧上升和

AI不可怕，就怕AI会画画——这里有一种你还不知道的‘图’灵测试…

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 0. 引言有人说,阿尔法狗,So TM What? 还有人说,AI(人工智能)有什么可怕的?它们不过是做一些人类不愿做的脏活.累活和一些可批量重复操作的活计,而对一些带有原创性质的活,比如艺术创作,AI就不灵光了. 喂,喂,喂,且慢,且慢,先进来看看这里的'图' 灵测试,再说. 目前我们所说的人工智能,在很大程度上,偏向于指基于深度神经网络的机器学习(简称深度学习).深度学习现在非常火,有点甚嚣尘上,它的确

是时候给AI减负了，Python五大AI库推荐

文章讲的是是时候给AI减负了,Python五大AI库推荐,机器学习是件令人兴奋的事,但一系列工作是复杂和困难的.作为一名开发人员,要学习的工具实在是太多太杂了.幸运的是,Python是一种广泛应用于大数据和机器学习各类工具上的语言,使用范围极广.机器学习通常涉及大量手动提升的工作,组装工作流和管道.设置数据源以及在内部和云部署的资源之间来回分流.以下这五大Python库可帮助加快数据管道,例如,使用AWS Lambda可对计算量较大的作业进行碎片处理,使用TensorFlow模型可减轻Tenso

花旗报告揭秘2016全球FinTech变革全景、“AI如何落地”公开课分享 | AI金融评论周刊

花旗报告:2016 全球 FinTech 变革全景揭秘,及 2017 年前景展望雷锋网(公众号:雷锋网)此前报道,今年 1 月,花旗研究团队再次聚焦FinTech金融科技,并发布更新版调研报告<重新审视数字化颠覆:FinTech 风险投资背后隐藏的行业变革(DIGITALDISRUPTION- REVISITED : What Fintech VC Investments Tell us About a Changing Industry)>.其中,该报告除了对 Fintech 行业投资全景

如何用TensorFlow训练聊天机器人（附github）

前言实际工程中很少有直接用深度学习实现端对端的聊天机器人,但这里我们来看看怎么用深度学习的seq2seq模型来实现一个简易的聊天机器人.这篇文章将尝试使用TensorFlow来训练一个基于seq2seq的聊天机器人,实现根据语料库的训练让机器人回答问题. seq2seq 关于seq2seq的机制原理可看之前的文章<深度学习的seq2seq模型>. 循环神经网络在seq2seq模型中会使用到循环神经网络,目前流行的几种循环神经网络包括RNN.LSTM和GRU.这三种循环神经网络的机制原理可看

【硅谷连线】自我组装廉价纸机器人或可用于探索太空

中云网每天连线硅谷,呈现最新鲜资讯!这里的"硅谷"指的是国外具有典型性和创新性企业代表. 1. Facebook收购互联网安全公司PrivateCore <http://tech.sina.com.cn/i/2014-08-08/03509542196.shtml> Facebook周四宣布,该公司将收购互联网安全企业PrivateCore,后者可帮助Facebook保护其服务器和数据中心.PrivateCore成立于2011年,总部位于美国加州城市帕洛阿尔托,曾于2012

猜你喜欢

jsp标签-如何通过jsp页面生成List对象

问题描述如何通过jsp页面生成List对象如何把通过iterator遍历的List对象,设置成可编辑的状态,然后提交的时候,又能自动封装成一个List对象? 跪求~!在线等... 解决方案可以将 ...

Chartkick：一行代码即可绘制出漂亮的图表

Chartkick是一个图表绘制工具,特点是UI美观.使用简单,并且支持IE6在内的大多数浏览器.之所以说它使用简单,是因为只需要一行http://www.aliyun.com/zixun/aggre ...

用户体验设计理论:互联网新产品的设计

写在前面:最近因一些原因思考新产品,或者说大公司里的新产品开发,有些不太成型但也又试图想得完整些的想法,暂列如下.整个产业和产品背景都被去掉了,有点干巴巴. >>>>产品的决策 ...

Java与C的不同点

1．Java没有预处理指令.(如C中的#define , #include , #ifdef等).C中的常量定义在Java中用static final来取代. 2．Java中没有C中的全局变量. 3． ...

SQL Server 自动化管理分区设计方案

一.设计说明设计这个自动化的目的是想要交替.重复地使用固定的几个分区(分区编号01~05)来保存数据,当最后一个分区就是快满的时候,我们会把最旧数据的分区的数据清空出分区,新数据就可以使用老分区空间 ...

Windows 7系统使用Telnet的命令方法

第一步.如果你直接到控制面板的管理工具里的服务项里去找telnet的话,那是徒劳无功的, 因为默认根本就没有这一服务.当然,你可以通过如下方式搞定."控制面板"一〉"程序 ...

码率是什么意思

码率就是数据传输时单位时间传送的数据位数,一般我们用的单位是kbps即千位每秒. 通俗一点的理解就是取样率,单位时间内取样率越大,精度就越高,处理出来的文件就越接近原始文件,也就是说画面的细节就越丰富 ...

win7电脑中如何将之前的运行记录全部清除掉？

每年年底,公司中都会有很多朋友离职,因为新的一年中,总会有更多的工作机会在等待着他们,当然,这种情况一般年轻人比较常见,因为他们总是觉得,现在的工作不适合自己,自己也许可以找到更好的.这不,咱们公 ...

怎么下载网页中的缓存视频？

第一,点击"工具"下拉菜单选择"Internet"选项,切换到常规选项卡. 第二,点击删除按钮,去掉图中两个选项框来删除这些文件,以帮助我们更好的寻找视频 ...

打开软件快捷键怎么设置

当我们想打开某软件时,往往会通过双击图标来实现,或者将常用软件固定在任务栏,其实,我们还可以这样做,对常用的一些软件设置快捷键,方便使用和启动,那么今天小编就为大家带来如何设置常用软件启动快捷键的 ...

js function定义函数使用心得_javascript技巧

1.最基本的作为一个本本分分的函数声明使用. 复制代码代码如下: function func(){} 或 var func=function(){}; 2.作为一个类构造器使用: 复制代码代码如下 ...

Mac下如何玩MySQL Server

scrollview嵌套viewpager的问题

问题描述 scrollview嵌套viewpager的问题布局是最外面是scrollview 然后里面是一张图片图片下面是viewpager viewpager 里面是三个fragment 每 ...

有关于c++中mfc的问题

问题描述有关于c++中mfc的问题 CDirView * CMainFrame::GetDirView() 这句代码是什么意思?谢谢大神解答! 解决方案在 MFC 的框架中,没有看到 CMainF ...

property-关于nutch2.2.1调试，在log里报错

问题描述关于nutch2.2.1调试,在log里报错 2015-01-11 11:11:40,229 ERROR protocol.RobotRulesParser - Agent we adver ...

sql-Sqlserver 2005创建登录名失败？？急~~~

问题描述 Sqlserver 2005创建登录名失败??急~~~ 我电脑里安装的是sqlserver2005 我想创建一个使用sql验证的用户名,但是怎么都不成功, 总是显示说什么权限不够~~ 下面是 ...

跟老齐学Python之类的细节_python

这几天和几个朋友以各种途径讨论过OOP的相关问题,他们是:令狐虫.Frank.晋剑.小冯大家对OOP有不同看法,所谓工程派和学院派看法不一致.从应用的角度看,工程派的观点是值得推荐的,那就是:不用太 ...

大数据生态不再让金融技术“隔靴搔痒”

文章讲的是大数据生态不再让金融技术"隔靴搔痒",1月4日,李克强总理在腾讯发起的前海微众银行敲下了电脑回车键,卡车司机徐军就拿到了3.5万元贷款,成为国内首家互联网银行的首笔贷款业 ...

分享管理不同操作系统的两种方式

数据中心的管理员可以通过各种工具和技术的结合,在单个系统就能完成对多个服务器的管理工作,这样能让工作更有效率. 用户总是选择最适合的操作系统来配合业务需求,所以数据中心的服务器都是多种操作系统混合,但 ...

HBase最佳实践－集群规划

HBase自身具有极好的扩展性,也因此,构建扩展集群是它的天生强项之一.在实际线上应用中很多业务都运行在一个集群上,业务之间共享集群硬件.软件资源.那问题来了,一个集群上面到底应该运行哪些业务可以最大 ...

JTable设置列宽、自动调整

下面這個方法你可以用來設置列寬,在你需要的地方調用一下就可以了 Java code public void FitTableColumns(JTable myTable) { ...

比照官方文档进行keystone部署，验证生成token，在adminTenant中成功，但在openstakDemo中失败

问题描述 http://docs.openstack.org/essex/openstack-compute/install/apt/content/verifying-identity-instal ...

“盛大文学”将以“moga”为名推出新无线业务

盛大网络(NASDAQ:SNDA)旗下公司"盛大文学"即将以"moga"为名推出新的无线业务,同时已经成功收购了品牌对应域名moga.cn,并即将正式启用. 尊 ...

六个酷炫动图背后的数学问题

今天为大家展现一些有趣的视觉现象及其背后的数学问题: 一.直与弯咦?一根直杆为什么能从弯曲的洞中穿过? 想想这其实不奇怪.这根杆是斜着的,杆中间的点离旋转轴最近,因此对应的洞上的点离旋转轴也最近:杆 ...

百度统计“seo建议”全揭秘（二）之参数说明

继续写前文写到Kyw已经开通SEO建议,百度统计检查后,SEO建议打分60,如下图: 百度检查的参数分2种,一种是URL,一种是页面内容.对应上图参数进行说明: [URL类参数] 1. URL长度: ...

NTTfromwork

问题描述 VS2013找不到entityframework,求大神帮忙啊解决方案解决方案二:VS2013内置EF5.0,通过更新UP2/3可以得到EF6.0另外一个获取EF的途径是使用nuget. ...

苏州太湖新城城区交通信号灯将“智能化”

太湖新城有174个交通信号灯,如果要用性格来形容这些信号灯,那就是--老实.虽然勤劳肯干,但不懂得变通,它们不管车流大小,永远按着同样节奏变化,也永远不理解排着长长队伍的车主的焦急心理.8月9日,从区 ...

《UNIX/Linux 系统管理技术手册（第四版）》——1.4 Linux的发行版本

1.4 Linux的发行版本 UNIX/Linux 系统管理技术手册(第四版) 所有的Linux发行版本共享相同的内核源,但是和内核一起的辅助软件则随着发行版本的不同而有很大不同.各发行版本在其侧重点 ...

一个正则表达式的看法（?:）_正则表达式

原正则的出现是为了实现apache上传目录无执行权限,不过大家知道在 windows下对于文件名是不区分大小写的,但在*unx下就不同了,其中st0p.php和st0p.Php是两个不同的文件,所以此 ...

基于新标注模式的实体和关系联合抽取方法 | 每周一起读

Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme 实体和关系的联合抽取问题作为信息抽取的关键任务,其 ...

热搜