【田渊栋年度总结】FAIR强化学习研究进展,理论研究竞争也相当激烈

今年的主要研究方向是两个:一是强化学习及其在游戏上的应用,二是深度学习理论分析的探索

今年理论方向我们做了一些文章,主要内容是分析浅层网络梯度下降非凸优化的收敛性质。首先是上半年我自己 ICML 的这篇[1],分析了带一层隐层的网络,且输入为高斯分布时的收敛性情况。这篇文章,尤其是去年在 ICLR 17 workshop 上发表的不完全版,可以算是此方向的头一篇,给分析神经网络的非凸问题提供了一个思路。之后 CMU 的杜少雷过来实习,又出了两篇拓展性的文章。两篇都在浅层卷积网络上做了分析,一篇[2]去掉了高斯假设,在一般的输入分布下可以证明梯度下降收敛;另一篇[3]则在高斯假设下分析同时优化两层权重时的情况,证明了并非所有局部极小都是全局最小,这个就推翻了之前很多论文力图推动的方向。

这整个方向背后是对于深度学习原理的探讨和严格化定量化的努力。很容易证明一般的非凸优化要得到最优解至少得要进行地毯式轰炸,做指数级的穷举;而神经网络的效果如此之好,一定有它超出一般非凸优化的特殊原因。我的猜想是因为数据集的 “自然” 分布和特定的网络结构(如卷积)联合起来导致的结果。这种思路同时也将 “最优化得到的解” 和机器学习中提的 “泛化能力” 结合了起来——如果解是因为数据分布而收敛得到的,那当然也能适应于服从同样分布的测试样本,这样泛化能力就有了保证。这样的想法也和我在博士阶段的工作一脉相承:即利用输入数据分布的特殊结构(如图像扭曲操作的群结构),构造新的算法,使得在同样保证恢复未知参数的条件下,样本复杂度更低。

接下来,如何将 “自然” 分布严格化定量化,如何证明在实际系统中用的多层非线性网络结构能抓住这个自然分布并且收敛,就是最大的问题。希望我们在 2018 年继续能做出有意思的工作来。

附带说一句,就算是较为理论的方向,今年的竞争也比较激烈,我在投完 ICML 之后一周,就看到 Arxiv 上有一篇相似的工作出现,第一部分和我推导出的结论完全一样,只是方法不同,可见人工智能领域竞争的激烈程度。

另一个方向是强化学习和游戏。今年我们主要做了系统方面的工作,一个是快速轻量灵活的 ELF 强化学习训练平台(见《黑暗森林中的光之精灵》一文,代码在这里),这个工作已经被今年的 NIPS 接收为 Oral 并且演讲过了[4]。ELF 用多线程代替多进程进行强化学习的训练,并且简化 Python 的接口设计,让只看过教科书的强化学习新人们都能有效率地训练模型。之后我们在 ELF 上面搭建了一个微缩版的即时战略游戏 MiniRTS。MiniRTS 可以以极快的速度模拟(单核 4 万帧每秒,在服务器上运行 1 万局游戏评估模型性能只需 2 分钟),有利于在有限资源限制下的即时战略游戏 AI 研究。在 MiniRTS 上我们用 Actor-Critic 模型训练出一些有意思的人工智能。在这个基础上,我们继续试验了各种参数组合,分析了训练所得智能的一些行为,并且尝试基于模型的强化学习 (model-based RL),获得了一些结果,这篇是放在今年的 NIPS Deep RL Symposium 上,见这里[5]。

还有一个平台是利用现存四万多人工设计的三维房屋(SUNCG 数据集)构造出的 House3D 平台(代码已经开源),在这个平台中我们可以让智能体看到当前视野中的各种物体,获取深度信息和物体类别标注,还可以四处行走探索并遵循基本物理规律。我们挑选了 200 间房屋进行寻路训练,并且在 50 间新房屋中确认了寻路智能的泛化能力。这篇也在 NIPS Deep RL Symposium 上亮相。

明年我们会尝试各种强化学习的已有算法,诸如层次式强化学习(Hierarchical RL),基于模型的强化学习(model-based RL)等等,并且设计新算法,一方面让我们的智能体变得更聪明,另一方面也希望构建一个公开标准的强化学习算法平台库,让大家都能重复(深度)强化学习这个方向的工作,从而推动整个领域的发展。

参考链接:

[1]An Analytical Formula of Population Gradient for two-layered ReLU network and its Applications in Convergence and Critical Point Analysis, arXiv:1703.00560

[2]When is a Convolutional Filter Easy To Learn? arXiv:1709.06129

[3]Gradient Descent Learns One-hidden-layer CNN: Don't be Afraid of Spurious Local Minima arXiv:1712.00779

[4]ELF: Extensive, Lightweight and Flexible Framework for Game Research http://yuandong-tian.com/nips17_oral_final.pdf

[5]https://drive.google.com/file/d/1LMyidobtWabKmQysyhEnWwriI7X2rgQ3/view

==============

我这次回来很多人询问我们组(Facebook AI Research,FAIR)的情况。我们组目前有一百人出头一点,分散在四个不同的地方(加州硅谷,纽约,法国巴黎,及加拿大蒙特利尔),硅谷和纽约人多一些,各约 40 多人。总的来说,我们组还是不错的,研究方向较为自由,计算资源比较丰富,注重文章发表和开源共享,全年招实习生和全职。我现在作为研究经理(Research Manager)负责加州硅谷的强化学习研究,欢迎大家踊跃投送简历,我的邮箱是 yuandong@fb.com.

原文发布时间为:2017-12-27

本文作者:田渊栋

原文链接:【田渊栋年度总结】FAIR强化学习研究进展,理论研究竞争也相当激烈

时间: 2024-09-17 08:53:25

【田渊栋年度总结】FAIR强化学习研究进展,理论研究竞争也相当激烈的相关文章

Facebook 田渊栋详解:深度学习如何进行游戏推理?

雷锋网按:腾讯围棋 AI 程序"绝艺"(Fine Art)在世界电脑围棋大赛 UEC 上力压多支日韩参赛退伍获得冠军,一时间又引发了大家对 AI 和围棋的关注和讨论. 其实,自去年 3 月份 AlphaGo 战胜李世石之后,人们对会下围棋的人工智能程序已经不陌生了.大部分人都知道 AlphaGo 是利用了一种名叫深度学习的技术,然后基于互联网棋谱大数据的支持,每天自己跟自己对弈,所以才能这么厉害. 但鲜有人知道的是:在围棋这种逻辑缜密的推理游戏中,AI 究竟是怎么"思考&qu

详解Facebook田渊栋NIPS2017论文:让大家都能做得起深度强化学习研究的ELF平台

这周,机器学习顶级会议 NIPS 2017 的论文评审结果已经通知到各位论文作者了,许多作者都马上发 Facebook/Twitter/Blog/朋友圈分享了论文被收录的喜讯.大家的熟人 Facebook 人工智能研究院研究员田渊栋也有一篇论文入选,论文名为「ELF: An Extensive, Lightweight and Flexible Research Platform for Real-time Strategy Games」.这篇论文介绍了他们构建的强化学习研究平台 ELF,为环境

Facebook 田渊栋:学AI的门槛在哪,以及,为什么AI人才有高收入?

雷锋网(公众号:雷锋网)按:本文作者田渊栋,卡耐基梅隆大学机器人系博士学位.上海交通大学硕士学位和学士学位,前谷歌无人车项目组成员,现任Facebook人工智能组研究员,主要负责Facebook的智能围棋项目Dark Forest.文章转载自知乎专栏,雷锋网已获授权. 最近收到一些信问"自己是不是适合搞AI,门槛是不是太高"等等问题,也看到"IT是不是泡沫"等等讨论,我就写篇博客给大家分享下我的观点,顺便也分析一下做AI,ML及CS的前景. 其实AI现在算是野蛮生长

专访田渊栋 | Torch升级版PyTorch开源,Python为先,强GPU加速

专访Facebook研究员田渊栋和PyTorch作者Soumith 新智元 :田博士,关于PyTorch的发布,请问可以采访您几个问题嘛? 田渊栋 :哦,你要问什么?我可以把问题转给Soumith. 新智元 :请问 PyTorch 除了是基于 Python,其它架构是否与 Torch 一样? 田渊栋 :基本C/C++这边都是用的torch原来的函数,但在架构上加了 autograd 这样就不用写backward 函数,可以自动动态生成computational graph 并且自动求导,反向传递

独家 | 专访田渊栋:AlphaGo之后,研究智能围棋还有什么意义?

没有什么是永垂不朽的,没有什么会一直昌盛,所以我宁愿做点真正有意义的事情,来致敬这个风起云涌的人工智能时代. -------题记. 近日,田渊栋受地平线曾经在Facebook的同事邀请,赴中国做了一期大牛讲堂,分享了关于游戏和增强学习等的话题.分享会后,AI科技评论采访了田渊栋,就他为什么离开Google无人驾驶团队去Facebook人工智能研究院,现在正在做的工作,如何平衡工作中理论和应用的比率,怎么看待绝艺和AlphaGo的棋艺水平,怎么看待智能围棋的实用价值,接受了AI科技评论的采访.以下

【田渊栋报告】游戏中的人工智能:成就与挑战 | ICML WorkShop(46PPT)

[田渊栋]这次有幸成为了首届VGML(Video Games and Machine Learning)的workshop的受邀演讲嘉宾.以下是流水帐. 我第一个演讲,因为Gabriel的开场白只花了十分钟,所以我有五十分钟,占了点小小的便宜.主要讲了DarkForest,Doom还有最近的ELF的框架.ELF是一个游戏之上的框架,任何游戏或者虚拟环境,只要带有C++接口都可以往里装(现在有Python接口也可以了),而ELF会自动处理并行的问题.ELF收集完了一个batch的游戏数据,就可以交

李开复、马少平、周志华、田渊栋都是怎么看AlphaGo Zero的?

本文讲的是李开复.马少平.周志华.田渊栋都是怎么看AlphaGo Zero的?, 北京时间10月19日凌晨,Deepmind在Nature上发布论文<Mastering the game of Go without human knowledge>(不使用人类知识掌握围棋),在这篇论文中,Deepmind展示了他们更强大的新版本围棋程序"AlphaGo Zero",验证了即使在像围棋这样最具挑战性的领域,也可以通过纯强化学习的方法自我完善达到目的.据介绍,AlphaGo Z

Facebook田渊栋:德州扑克上战胜人类的AI究竟用的是什么算法?| 解析

最近听说我的母校卡耐基梅隆大学德州扑克的AI Libratus以很大的优势赢得了与职业玩家的比赛,非常兴奋.在同时期,还有一篇来自加拿大阿尔伯塔大学(Univ of Alberta)的文章介绍了DeepStack,同样在3000局的比赛中击败了几位职业玩家.这样在非对称信息游戏上人类再一次输给了AI. 当然有AlphaGo的先例,这个对广大吃瓜群众的冲击可能没有那么大.但我个人觉得非对称信息博弈的实用价值更大些.因为非对称信息博弈的应用范围非常广泛,涵括我们每天遇到的所有决策,上至国家战略,下至

【预告】田渊栋直播讲解Facebook 围棋 AI 程序 DarkForest 是如何推理的? | AI 研习社

昨天,腾讯围棋 AI 程序"绝艺"(Fine Art)在世界电脑围棋大赛 UEC 上力压多支日韩参赛退伍获得冠军(详见雷锋网(公众号:雷锋网)深度报道"扬名UEC杯,腾讯围棋AI'绝艺'夺冠之路全回顾"),一时间又引发了大家对 AI 和围棋的关注和讨论. 其实,自去年 3 月份 AlphaGo 战胜李世石之后,人们对会下围棋的人工智能程序已经不陌生了.大部分人都知道 AlphaGo 是利用了一种名叫深度学习的技术,然后基于互联网棋谱大数据的支持,每天自己跟自己对弈,