演讲稿丨杨铭 深度学习发展的新趋势

       大家好,我是杨铭。非常荣幸有这样的机会跟大家分享我们对深度学习研究发展新趋势的一些思考和总结,我们将这些新发展的首字母缩写成一个单词MARS。这是和我的同事黄畅博士共同的一些讨论。

    简单介绍一下,我是去年夏天加入地平线的,负责软件工程。在此之前我在Facebook人工智能实验室负责人脸识别算法研究和后端系统开发,也曾在NEC美国实验室和徐伟一起工作,学到很多东西。

       在谈论深度学习的新趋势之前,我们应该首先明确一下深度学习的定义和它现在的发展状态。非常幸运,学术圈对于深度学习的定义有比较清楚的共识。深度学习是指从原始的数据通过不断地学习、不断地抽象,得到这些数据的表达或描述。所以简单地说,深度学习是从原始数据(raw data)学习其表达(learning representations)。这些原始数据可能是图像数据,可能是语音,也可能是文字;这种表达就是一些简洁的数字化的表达。深度学习的关键就是怎么去学这个表达。这个表达是通过多层的非线性的复杂的结构学习的,而这个结构可能是神经网络,也可能其他的结构。关键是希望通过端到端的训练,从数据直接学习到到表达。

       如果谈到深度学习的起源还是要回到1957年,从一个非常简单的结构单元——“感知机(perception)”开始。一些输入信号被权重加权后,和一个阈值比较得到输出。为什么说这是深度学习的起源?因为这些权重不是由规则预先设计的,而是训练学习得到的。最开始的“感知机”是硬件设计,这些连接就是物理连线,这些权重可能是通过调节电阻实现的。当时媒体就预测,这是一个智能计算机的雏形,能很快学会走路、说话、看图、写作,甚至自我复制或者有自我意识。那么过了60年,目前进展到看图和写作中间的阶段,希望至少再需要至60年能学会自我复制。

       深度学习从出现之后,大体上经过了两个落起。一开始大家非常乐观,但很快发现有一些非常简单的问题它解决不了。从2006年开始,在Hinton/LeCun/Bengio/Ng等几位教授的推动下,深度学习得到了一种爆发式的发展,在图像识别、语音识别、语义理解,和广告推荐等问题上,有一些突破性的提高。最新的进展就是今年3月的AlphaGo围棋比赛,以一种很直观的方式让社会大众感受到了深度学习进展。我们希望再过五年,深度学习的技术能够真正用到千家万户的日常生活中去,让每个设备都可以运行深度学习的模块。

       在这几次起落中,深度学习基本的学习方式和网络结构其实没有本质性的变化,还是一种多级的人工神经网络的结构。像这幅图中看到的,输入层是一些原始数据,并且有标注。无论希望学到什么内容,只要有个评价误差的函数(cost function),评价神经网络的误差是多少,那么有了这个输入输出之后,深度学习或者深度神经网络就可以作为一个黑盒子学习这个目标。人工神经网络从结构上讲就是多层的神经元和它们之间的连接,组合成很多层。开始时可能有一个输入和一个目标,比如你希望从人脸图像识别出这个人是谁。这时候神经网络肯定识别不出来,因为它从来没有见过。我们会给神经网络随机设一些值,让它预测这个识别结果,开始最后输出层几乎肯定会是一个错误的识别结果。这也没有关系,我们把这个输出层的误差慢慢地反向传播回去,一点点的修改这些神经元的内部参数和他们之间的连接。通过这种一点点地修改,慢慢通过大量的数据,这个网络就学会了一个非常复杂的函数功能。从八十年代到目前,这30年间,这个基本的结构和学习算法是没有变化。

       从2006年开始,深度学习有爆发式增长,归结于下面几个理由。首先是利用了海量的数据,这些大数据的使用使得原来这种深度神经网络一些问题,比如对噪声数据敏感,容易在一个小的数据集性能很好,但无法泛化到大的数据集,这些问题都不再是问题了。能够使用这些大数据学习,需要很高的并行运算的能力。当然,也有算法上的改进,比如dropout、batch normalization、residual networks等,能避免过拟合梯度消失这些问题。但本质上这次深度学习的爆发发展还是通过大数据和计算能力实现的。之前说神经网络本身像黑盒子,结构设定没有很好的指导意见,这个目前还是这个现状。

       深度学习为什么这几年能得到这么大的关注?关键原因是性能准确度是随着数据的增长而增加的。其他的机器学习的方法可能随着数据的增加,性能提高到某一个点就饱和了。但目前为止对于深度学习我们还没有观察到这点,这可能是它最值得关注的一点。目前深度学习也取得很多成功,比如如何做好图像分类的问题。对于一个1000类图像分类测试,经过大概不到五年的时间,错误率从25%降到3.5%的水平,已经比人类的识别准确率还要高。这就是我们目前深度学习或者深度神经网络取得的主要的成功点,即学会了如何识别、如何分类。

    回到我们的正题,目前深度学习研究的新趋势?我们总结了四个方向。首先是学习如何记忆(memory networks);第二是学习如何关注与取舍(attention model),把注意力集中到需要关心的细节上;第三个是增强学习(reinforcement learning),学习如何控制主动行动;第四个整体学习任务结构上的新趋势,就是序列化(Sequentialization)。我们取首字母,缩写成MARS。

       第一个是学习然如何记忆。常规的前向神经网络有一个特点:你每次输入和输出是确定的关系,对于一副图像,无论何时输入进神经网络,我们一层一层计算后就会得到一个确定的结果,这是跟上下文不相关的。我们如何把记忆的能力引入到神经网络中去?最简单的一个思路是,在神经网络中加入一些状态,让它能记住一点事情。它的输出不仅取决于它的输入,也取决于它本身的状态。这是一个最基本的递归神经网络的思路。输出取决于本身的状态,我们也可以将其展开成一个时序系列的结构,就是说当前状态的输入不仅包括现在输入,也包含上一时刻的输出,这样就会构成一个非常深的网络。这种办法可以让神经网络记住一些之前的状态。那么输出就取决于在这些状态和现在的输入的结合。但是这个方法有一个局限:这些记忆不会很长久,很快就会被后面的数据冲掉了。之后的深度学习的发展就是长时短时记忆,提出了一个记忆单元(memory cell)的概念,这个单元中加入了三个个门,一个输入门,一个输出门,一个遗忘门。输入门可以控制你的输入是否影响你的记忆当中的内容。输出门是影响你的记忆是否被输出出来影响将来。遗忘门是来看你的记忆是否自我更新保持下去。这种方式使你的记忆得到灵活的保持,而控制记忆如何保持的这些门本身是通过学习得到的,通过不同的任务学习如何去控制这些门。这个长短时记忆单元是1999年提出的,近几年又有一些新的改进如Gated Recurrent Unit,简化成只有两个门,一个是更新门,一个重置们,控制记忆内容是否能继续保存下去。

       这些方法其实可以把记忆保存得更长一点,但实际上还是很有限。更新的一些研究方法提出了一种神经图灵机(Neural Turning Machine)的概念:有一个永久的的内存模块,有一个控制模块去控制如何根据输入去读取存储这些内存,并转换成输出。这个控制模块,可以用神经网络实现。举个例子,比如做排序的工作,有一些乱序的数字,希望把它排成顺序的序列。我们之前需要设计不同的排序算法,而这个神经图灵机的思路是我们给定这些输入输出,让这个神经网络自己去学习如何把这些数字通过储存和取出来排序。某种意义上,让神经网络学习如何实现编程实现任务。这也是一个类似的工作,记忆网络(Memory Network),学习去管理这种长时间的记忆,在应用于问答系统后,可以学到一些推理的能力。

       第二个方向是把注意力模型(Attention Model),动态的将注意力集中到某些细节,提高识别性能。比如,看图说话图像理解,你可以根据一幅图生成一句话,很可能是非常宏观的。如果我们能够把注意力聚焦在这个机制的从引入到识别的过程中,根据目前的识别结果,动态一步一步调整聚焦到图像的细节,那么可以生成一些更合理或者更精细的表达,比如在图像中,关注一个飞碟,我们可以调整关注区域在图像中把飞碟的找出来,提取它的特征进行识别,得到图像的更准确的文字描述。

       第三个就是增强学习(Reinforcement Learning)。在增强学习的框架中有两个部分,一部分是自主控制的单元(agent),一部分是环境(environment)。自主控制单元是通过选择不同的策略或者行为,希望能够最大化自己的长期预期收益,得到奖励;而环境将接收策略行为,修改状态,反馈出奖励。在这个增强学习的框架中有两个部分,一个部分是如何选择这些行为(policy function),另外一部分是如何评价评估自己可能取得的这些收益(value function)。这个增强学习框架本身已经存在很多年了,和深度学习的结合就是指如何选择策略行为的函数,以及如何评估预期奖励的函数,由深度神经网络学习得到,例如AlphaGo围棋中的走棋网络(policy network)和评价网络(value networks)。

       总而言之,从研究角度,深度学习正从有监督的学习慢慢向这种互动式的学习发展;网络结构由先向网络向有递归方式、考虑记忆、考虑时序的网络发;同时内容从静态的输入到动态的输入,在预测方式方面是从同时的预测慢慢变成一步一步序列化的预测。从2014年和2015年的发展情况来看,深度学习现在的非常简化的思路是,如果有个比较新的问题,要做的事情首先是把问题描述好,保证输入到最终的目的这个过程每步是可微分的,然后把其中最难的部分插入深度神经网络,实现端对端的学习。之前提到的几个新趋势,大体上都是这种思路。

       无论是社会大众还是媒体,或者是研究人员自己,我们可能对深度学习还有一些不同角度的认识。我个人认为这是计算机科学领域非常纯粹的计算问题,探索如何把这些数据本质的内容和结构抽象理解得更好。希望今天提到的一些深度学习的新趋势,对大家有所帮助和借鉴。谢谢大家!

本文来源于"中国人工智能学会",原文发表时间"2016-04-27"

时间: 2025-01-01 08:59:33

演讲稿丨杨铭 深度学习发展的新趋势的相关文章

独家丨2017全国深度学习技术应用大会回顾:传统的AI研究方法,在DL时代该如何变革?

雷锋网(公众号:雷锋网)按:2016年无疑是深度学习最为火热的一年,深度学习在语音.图像.自然语言处理等领域取得非常突出的成果,成了最引人注目的技术热点之一.雷锋网也报道过多次关于Google.Facebook.微软.百度在内的各大技术巨头都在不遗余力地推进深度学习的研发和应用. 2017年深度学习的势头依旧迅猛,并以更快的速度渗透在各个行业当中,对世界产生深远影响. 深度学习不但使得机器学习能够实现众多的应用,而且拓展了人工智能的领域范围,并使得机器辅助功能都变为可能.其应用领域正在加速渗透到

演讲稿丨杨强 自学习的人工智能

       大家好,今天非常高兴.非常荣幸能参加这样一个盛会.今天我给带来的演讲是我的一点学习心得,题目叫做自学习的人工智能.首先大家都知道在60周年之际,我们首先应该记住的是这位人工智能的先驱,图灵.在他的问题的感召下,我们就有了今天这样的一个盛会和今天人工智能的飞速发展.他的问题,机器可以思维吗?可以从不同的维度来解释,那么首先人类对人工智能的一个探索也可以围绕对问题不同解释的探索.        第一个探索,应该说是在逻辑层面的探索.60年代人工智能的这些先驱就考虑用逻辑和搜索来研究人工

详解丨FPGA:深度学习的未来?

转自新智元 来源:arxiv 作者:Griffin Lacey  Graham Taylor Shawaki Areibi 摘要 最近几年数据量和可访问性的迅速增长,使得人工智能的算法设计理念发生了转变.人工建立算法的做法被计算机从大量数据中自动习得可组合系统的能力所取代,使得计算机视觉.语音识别.自然语言处理等关键领域都出现了重大突破.深度学习是这些领域中所最常使用的技术,也被业界大为关注.然而,深度学习模型需要极为大量的数据和计算能力,只有更好的硬件加速条件,才能满足现有数据和模型规模继续扩

新工具——TensorLayer:管理深度学习发展的复杂性

更多深度文章,请关注:https://yq.aliyun.com/cloud 对于深度学习开发者来说,深度学习系统变得越来越复杂.以至于我们需要使用轻量级的工具从头到尾来管理流程,为了将更多的连续学习内置到神经网络中,这就要求我们建立可以迭代增强的更有弹性的数据集以及更多的动态模型. 深度学习开发人员必须花费大量的时间来整合神经网络的组件,管理模型生命周期,组织数据和调整系统并行度等等.随着使用新的培训样本后,人类对于神经网络模型的见解,更新模型和跟踪其变化的能力就变得非常必要了.为此伦敦帝国理

英特尔IDF PPT揭秘: 高性能计算和深度学习发展的趋势(下)

雷锋网(公众号:雷锋网)按:在上篇文章中,我们看到了深度学习对计算量的迫切程度.以及介绍了一款Intel为此设计的处理器:代号为KNL(Knights Landing)的高性能CPU Xeon Phi.在下篇我们将为大家展示一些深度学习语言开发者们针对这些需求和新硬件做出的调整和改进. 在上文的末尾提到了著名的开源学习框架Caffe.不过,来自伯克利大学的原始版本的Caffe语言在处理的数据规模太大时需要的时间太长了,并且默认情况下并不支持多节点.并行文件系统.因此不是很擅长超大规模的深度学习运

2017深度学习NLP进展与趋势

在过去几年中,深度学习(DL)在图像识别和语音处理等领域取得了巨大的进步. 它在自然语言处理(NLP)中的应用起初并不令人兴奋,但是随着技术的进步它也为一些常见的NLP任务提供了最先进的解决方案.命名实体识别(NER).词性(POS)标签.情感分析通过神经网络模型获得了更好的解决. 在这篇文章中,我将回顾2017年DL在NLP领域的贡献.或许说是我想和大家分享一下我最喜欢的技术方案.2017年,DL在NLP中的使用不断扩大,在某些情况下产生了惊人的结果,所有迹象都表明这一趋势还会延续. 1.从w

独家 | 跨链通信:区块链技术发展的新趋势

雷锋网按:本文作者是众安科技安链云团队,雷锋网(公众号:雷锋网)独家约稿. 区块链技术是一种分布式账本技术,可以被应用在金融.健康医疗.供应链.资产管理等诸多领域,但是受吞吐量.网络孤立性.监管.伸缩性等因素的制约,目前的区块链项目并不能很好的服务于商业应用.在区块链所面临的诸多问题中,网络孤立性阻碍了不同区块链之间的协同操作,极大程度的限制了区块链的发挥空间. 关于不同区块链协同操作的探讨早已有之,我们对此也并不陌生,如以BTC-Relay.元素链为代表的侧链.Factom等的一些探索.不过,

电子商务发展的新趋势-云计算与数字技术相结合

据欧姆龙电子血压计(www.jm876.com)网络研究中心报道,电子商务全年交易额4.5万亿元,增长幅度是GDP增幅的五倍.这是我国电子商务去年(2010年)交上的亮丽答卷.未来五年,中国电子商务领域将实现跨越发展,成为经济增长新动力.目前,我国网民规模超过4亿8千万,网络购物.网上支付和网上银行使用率超过三分之一.哈勃天文望远镜(www.htsbm.com)指出,电子商务的强劲发展势头将继续保持. 姜增伟:我们预计电子商务在"十二五"期间,但是这个数字我看是比较保守,我们考虑18万

食品包装机械发展的新趋势

作为全球领先的传动与控制技术专家,博世力士乐进入中国已经有近30年的时间了,不论是它的电子传动与控制技术.线性传动与组装技术,还是液压.气动技术等,都已为中国的用户所熟习和接受.风头正劲,博世力士乐开始继续拓展其在中国的业务范围.2007年中国国际饮料和液态食品技术展期间,该公司首次向中国用户展示了一系列应用于包装机械领域的个性化传送带.具备高安全标准的各类气动阀以及包装机械分散式伺服驱动器等最新元件与整体解决方案."30多年来,我们一直为食品.饮料.医药和包装机械制造商提供元件.模块及全套自动