元学习:实现通用人工智能的关键!

1 前言

Meta Learning(元学习)或者叫做 Learning to Learn(学会学习)已经成为继Reinforcement Learning(增强学习)之后又一个重要的研究分支(以后仅称为Meta Learning)。对于人工智能的理论研究,呈现出了

Artificial Intelligence --> Machine Learning --> Deep Learning --> Deep Reinforcement Learning --> Deep Meta Learning

这样的趋势。

之所以会这样发展完全取决于当前人工智能的发展。在Machine Learning时代,复杂一点的分类问题效果就不好了,Deep Learning深度学习的出现基本上解决了一对一映射的问题,比如说图像分类,一个输入对一个输出,因此出现了AlexNet这样的里程碑式的成果。但如果输出对下一个输入还有影响呢?也就是sequential decision making的问题,单一的深度学习就解决不了了,这个时候Reinforcement Learning增强学习就出来了,Deep Learning + Reinforcement Learning = Deep Reinforcement Learning深度增强学习。有了深度增强学习,序列决策初步取得成效,因此,出现了AlphaGo这样的里程碑式的成果。但是,新的问题又出来了,深度增强学习太依赖于巨量的训练,并且需要精确的Reward,对于现实世界的很多问题,比如机器人学习,没有好的reward,也没办法无限量训练,怎么办?这就需要能够快速学习。而人类之所以能够快速学习的关键是人类具备学会学习的能力,能够充分的利用以往的知识经验来指导新任务的学习,因此Meta Learning成为新的攻克的方向。

与此同时,星际2 DeepMind使用现有深度增强学习算法失效说明了目前的深度增强学习算法很难应对过于复杂的动作空间的情况,特别是需要真正意义的战略战术思考的问题。这引到了通用人工智能中极其核心的一个问题,就是要让人工智能自己学会思考,学会推理。AlphaGo在我看来在棋盘特征输入到神经网络的过程中完成了思考,但是围棋的动作空间毕竟非常有限,也就是几百个选择,这和星际2几乎无穷的选择对比就差太多了(按屏幕分辨率*鼠标加键盘的按键 = 1920*1080*10 约等于20,000,000种选择)。然而在如此巨量选择的情况下,人类依然没问题,关键是人类通过确定的战略战术大幅度降低了选择范围(比如当前目标就是造人,挖矿)因此如何使人工智能能够学会思考,构造战术非常关键。这个问题甚至比快速学习还要困难,但是Meta Learning因为具备学会学习的能力,或许也可以学会思考。因此,Meta Learning依然是学会思考这种高难度问题的潜在解决方法之一。

经过以上的分析,不过是为了得出下面的结论:

Meta Learning是实现通用人工智能的关键!

在本文之前,专栏已经发布了两篇和Meta Learning相关的文章:

  1. 学会学习Learning to Learn:让AI拥有核心价值观从而实现快速学习
  2. 机器人革命与学会学习Learning to Learn

之前采用Learning to Learn这个名称是希望让更多的知友明白这个概念,从本篇开始,我们会直接使用Meta Learning这个名称(其实只是因为这个名称看起来更专业更酷)

关于Meta Learning的概念本文就不介绍了,在上面列出的两篇Blog已有讲解。本文将和大家分享一下Meta Learning的一些最前沿的研究进展,可以说是百家争鸣的阶段。

2 Meta Learning百花齐放的研究思路

为什么说Meta Learning的研究是百家争鸣呢?因为每一家的研究思路都完全不同,真的是各种方法各种试,呈现出一种智慧大爆发的阶段。

关于Meta Learning的papers,我收集了一下:

songrotek/Meta-Learning-Papers

这里主要分析一下最近一两年来的发展情况,先作个分类,然后做一下简要的分析。

2.1 基于记忆Memory的方法

基本思路:既然要通过以往的经验来学习,那么是不是可以通过在神经网络上添加Memory来实现呢?

代表文章:

[1] Santoro, Adam, Bartunov, Sergey, Botvinick, Matthew, Wierstra, Daan, and Lillicrap, Timothy. Meta-learning with memory-augmented neural networks. In Proceedings of The 33rd International Conference on Machine Learning, pp. 1842–1850, 2016.

[2] Munkhdalai T, Yu H. Meta Networks. arXiv preprint arXiv:1703.00837, 2017.

以Meta-Learning with memory-augmented neural networks这篇文章为例,我们看一下他的网络结构:

我们可以看到,网络的输入把上一次的y label也作为输入,并且添加了external memory存储上一次的x输入,这使得下一次输入后进行反向传播时,可以让y label和x建立联系,使得之后的x能够通过外部记忆获取相关图像进行比对来实现更好的预测。

2.2 基于预测梯度的方法

基本思路:既然Meta Learning的目的是实现快速学习,而快速学习的关键一点是神经网络的梯度下降要准,要快,那么是不是可以让神经网络利用以往的任务学习如何预测梯度,这样面对新的任务,只要梯度预测得准,那么学习得就会更快了?

代表文章:

[1] Andrychowicz, Marcin, Denil, Misha, Gomez, Sergio, Hoffman, Matthew W, Pfau, David, Schaul, Tom, and de Freitas, Nando. Learning to learn by gradient descent by gradient descent. In Advances in Neural Information Processing Systems, pp. 3981–3989, 2016

这篇文章的思路很清奇,训练一个通用的神经网络来预测梯度,用一次二次方程的回归问题来训练,然后这种方法得到的神经网络优化器比Adam,RMSProp还要好,这样显然就加快了训练。

2.3 利用Attention注意力机制的方法

基本思路:人的注意力是可以利用以往的经验来实现提升的,比如我们看一个性感图片,我们会很自然的把注意力集中在关键位置。那么,能不能利用以往的任务来训练一个Attention模型,从而面对新的任务,能够直接关注最重要的部分。

代表文章:

[1] Vinyals, Oriol, Blundell, Charles, Lillicrap, Tim, Wierstra, Daan, et al. Matching networks for one shot learning. In Advances in Neural Information Processing Systems, pp. 3630–3638, 2016.

这篇文章构造一个attention机制,也就是最后的label判断是通过attention的叠加得到的:

attention a则通过g和f得到。基本目的就是利用已有任务训练出一个好的attention model。

2.4 借鉴LSTM的方法

基本思路:LSTM内部的更新非常类似于梯度下降的更新,那么,能否利用LSTM的结构训练出一个神经网络的更新机制,输入当前网络参数,直接输出新的更新参数?这个想法非常巧妙。

代表文章:

[1] Ravi, Sachin and Larochelle, Hugo. Optimization as a model for few-shot learning. In International Conference on Learning Representations (ICLR), 2017.

这篇文章的核心思想是下面这一段:

怎么把LSTM的更新和梯度下降联系起来才是更值得思考的问题吧。

2.5 面向RL的Meta Learning方法

基本思路:既然Meta Learning可以用在监督学习,那么增强学习上又可以怎么做呢?能否通过增加一些外部信息的输入比如reward,之前的action来实现?

代表文章:

[1] Wang J X, Kurth-Nelson Z, Tirumala D, et al. Learning to reinforcement learn. arXiv preprint arXiv:1611.05763, 2016.

[2] Y. Duan, J. Schulman, X. Chen, P. Bartlett, I. Sutskever, and P. Abbeel. Rl2: Fast reinforcement learning via slow reinforcement learning. Technical report, UC Berkeley and OpenAI, 2016.

两篇文章思路一致,就是额外增加reward和之前action的输入,从而强制让神经网络学习一些任务级别的信息:

2.6 通过训练一个好的base model的方法,并且同时应用到监督学习和增强学习

基本思路:之前的方法都只能局限在或者监督学习或者增强学习上,能不能搞个更通用的呢?是不是相比finetune学习一个更好的base model就能work?

代表文章:

[1] Finn, C., Abbeel, P., & Levine, S. (2017). Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks. arXiv preprint arXiv:1703.03400.

这篇文章的基本思路是同时启动多个任务,然后获取不同任务学习的合成梯度方向来更新,从而学习一个共同的最佳base。

2.7 利用WaveNet的方法

基本思路:WaveNet的网络每次都利用了之前的数据,那么是否可以照搬WaveNet的方式来实现Meta Learning呢?就是充分利用以往的数据呀?

代表文章:

[1] Mishra N, Rohaninejad M, Chen X, et al. Meta-Learning with Temporal Convolutions. arXiv preprint arXiv:1707.03141, 2017.

直接利用之前的历史数据,思路极其简单,效果极其之好,是目前omniglot,mini imagenet图像识别的state-of-the-art。

2.8 预测Loss的方法

基本思路:要让学习的速度更快,除了更好的梯度,如果有更好的loss,那么学习的速度也会更快,因此,是不是可以构造一个模型利用以往的任务来学习如何预测Loss呢?

代表文章:

[1] Flood Sung, Zhang L, Xiang T, Hospedales T, et al. Learning to Learn: Meta-Critic Networks for Sample Efficient Learning. arXiv preprint arXiv:1706.09529, 2017.

本文构造了一个Meta-Critic Network(包含Meta Value Network和Task-Actor Encoder)来学习预测Actor Network的Loss。对于Reinforcement Learning而言,这个Loss就是Q Value。

本文详细分析详见:学会学习Learning to Learn:让AI拥有核心价值观从而实现快速学习

本文 纽约大学的Kyunghyun Cho 做了评价:

也算是一种全新的思路。

3 小结

从上面的分析可以看出,Meta Learning方兴未艾,各种神奇的idea层出不穷,但是真正的杀手级算法还未出现,非常期待未来的发展!也希望更多的朋友们可以投入到Meta Learning这个研究方向上来。

====================================分割线================================

本文作者:思颖

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-09-19 08:16:32

元学习:实现通用人工智能的关键!的相关文章

(转) 深度增强学习与通用人工智能

    深度增强学习前沿算法思想 CSDN  作者: Flood Sung 2017-02-16 09:34:29 举报 阅读数:3361 作者: Flood Sung,CSDN博主,人工智能方向研究生,专注于深度学习,增强学习与机器人的研究. 责编:何永灿,欢迎人工智能领域技术投稿.约稿.给文章纠错,请发送邮件至heyc@csdn.net本文为<程序员>原创文章,未经允许不得转载,更多精彩文章请订阅2017年<程序员>​ 2016年AlphaGo计算机围棋系统战胜顶尖职业棋手李世

伯克利AI研究所:新型元学习法MAML的前世今生。

雷锋网 AI科技评论按:伯克利AI研究所带来了他们的最新研究--未知模型元学习法(MAML).它不会对模型的形式做任何假设,也没有为元学习引入额外的参数,极易应用于许多领域,包括分类.回归和强化学习.这种方法非常简单,并且优于已知的很多方法. 雷锋网(公众号:雷锋网) AI科技评论将其编译如下: 智能的一个关键层面是多才多艺--即拥有做许多不同事情的能力.目前的人工智能系统擅长掌握单一技能,如精通围棋的Go.深度回答能力超强的Watson,甚至还有自动控制直升机系统.但是,当你让人工智能系统去做

深度学习再度点燃人工智能 安防成重点领域

过去5年间,计算能力的大幅进步触发了AI革命,谷歌母公司Alphabet.亚马逊.苹果.Facebook以及微软等科技巨头争先进入这个领域.尤其是自去年人工智能机器人大与人类棋手开展,人工智能关注度达到了一个新的高峰.其实,人工智能的发展可以追述到60几年前,但是因为技术的原因数次沉寂,直到深度学习的出现,让人工智能再次掀起热潮. 深度学习再度点燃人工智能 安防成重点领域 什么是深度学习? 深度学习是机器学习方法之一,而机器学习则是让计算机从有关我们周围世界或其中某个特定方面的范例中学习,从而让

CNCC 2016|清华大学张钹院士起底: 后深度学习时代的人工智能

雷锋网(公众号:雷锋网)按:本文根据张钹院士近日在 CNCC 2016 上所做的大会特邀报告<<人工智能未来展望,后深度学习时代>>编辑整理而来,在未改变原意的基础上略作了删减. 张钹:CCF会士,2014CCF终身成就奖获得者,中国科学院院士,计算机专家,清华大学类脑计算研究中心学术委员会主任.曾任信息学院学术委员会主任物联网物联网,智能技术与系统国家重点实验室主任,中国自动化学会智能控制专业委员会主任,计算机学报副主宾,2011年德国汉堡大学授予自然科学名誉博士,2016年获微

他们做的通用人工智能,要让所有产品都具备“智能”大脑

2016年9月,国内首台公安智能安保机器人AnBot(中文名"深圳小安")在深圳机场正式上岗.24小时自动巡逻,并配备了电防暴叉.电击枪的深圳小安立刻受到了一众国内外媒体的关注,其实,它还可以进行智能语音交互,回答关于补办身份信息.航班动态等方面的提问.小安的语音交互系统使用的是灵聚智能的技术. (深圳小安机器人) 成立于2013年6月的灵聚,核心产品是灵聚人工大脑--这是将语义分析.知识图谱和认知计算等技术有机结合在一起的算法和数据集群,主要实现自然语言交互.自学习和认知等能力.灵聚

中国人工智能学会通讯——后深度学习时代的人工智能

1956 年,在美国达特茅斯学院举行的一次会议上,"人工智能"的研究领域正式确立.60 年后的今天,人工智能的发展正进入前所未有的大好时期.我今天作的报告,将通过分析时代的特点,这个时代下人工智能与计算机的可能命运,来重新认识人工智能.认识我们赖以生存的计算机,还有我们自己. 后深度学习时代的前提 我们看到如今人工智能的春天又来了,不过和 30 年前日本兴起的人工智能热潮相比,发生了如下变化:时间不同.地点不同.主题也不同.这次人工智能的大发展与深度学习紧密相关,体现在:① 从知识情报

BAIR论文:通过“元学习”和“一次性学习”算法,让机器人快速掌握新技能

我们都知道,深度学习是在大数据的背景下火起来的,传统的基于梯度的深度神经网络需要大量的数据学习,而绝大多数的深度学习内容否基于大数据量下的广泛迭代训练,当遇到新信息时往往会出现模型失效的情况从而需要重新进行学习.在机器人领域,深度神经网络可以是机器人展示出复杂的技能,但在实际应用中,一旦环境发生变化,从头学习技能并不可行.因此,如何让机器"一次性学习",即在"看"了一次演示后无需事先了解新的环境场景,能在不同环境中重复工作尤为重要. 研究发现,具有增强记忆能力的架构

智能算法-c/c++ 如何进阶学习 目标写人工智能代码

问题描述 c/c++ 如何进阶学习 目标写人工智能代码 10C cc++基础,算法,数据结构 学完了(大学课程),进一步该学什么??基于matlab的各种智能算法(数学建模比赛相关自学)也有所接触,现在我再看<游戏人工智能编程案例精粹>,但发现书里的c++代码和我学的基础差很多,出现了严重断层 ,我应该补哪些东西,推荐一些书籍和教程求认真负责的答案,无聊的人麻烦让道 解决方案 个人觉得语言不是最主要的,人工智能的算法大都很多,不一定特别难,但是很长~建议先理解了算法本身,再去看比较好,直接看代

《中国人工智能学会通讯》——6.23 Yoshua Bengio: 深度学习崛起带来人工智能的春天

6.23 Yoshua Bengio: 深度学习崛起带来人工智能的春天 20 世纪 50 年代,计算机开始在象棋领域战胜人类,证明数学定理,让人类狂喜不已.60 年代,人们越来越希望,不久以后,科学家就能用硬件和软件复制人类大脑,"人工智能"可以完成任何任务,其表现不逊于人类.1967 年,今年年初逝世的麻省理工学院教授 Marvin Minsky(MIT 人工智能实验室的联合创始人,人工智能先驱)宣称,十年之内,人们可以解决人工智能这个难题. 当然,结果表明,当时就持有那份乐观主义,