深度学习-神经网络 历史

 一

  2016 年一月底,人工智能的研究领域,发生了两件大事。

  先是一月二十四号,MIT 的教授,人工智能研究的先驱者,Marvin Minsky 去世,享年89 岁。

  三天之后,谷歌在自然杂志上正式公开发表论文,宣布其以深度学习技术为基础的电脑程序 AlphaGo, 在 2015年 十月,连续五局击败欧洲冠军、职业二段樊辉。

  这是第一次机器击败职业围棋选手。距离 97年IBM 电脑击败国际象棋世界冠军,一晃近二十年了。

  极具讽刺意义的是,Minsky 教授,一直不看好深度学习的概念。他曾在 1969年 出版了 Perceptron (感知器) 一书,指出了神经网络技术 (就是深度学习的前身) 的局限性。这本书直接导致了神经网络研究的将近二十年的长期低潮。

  神经网络研究的历史,是怎样的?

  深度学习有多深?学了究竟有几分?

  二

  人工智能研究的方向之一,是以所谓 “专家系统” 为代表的,用大量 “如果-就” (If - Then) 规则定义的,自上而下的思路。

  人工神经网络 ( Artifical Neural Network),标志着另外一种自下而上的思路。

  神经网络没有一个严格的正式定义。它的基本特点,是试图模仿大脑的神经元之间传递,处理信息的模式。

  

  一个计算模型,要划分为神经网络,通常需要大量彼此连接的节点 (也称 ‘神经元’),并且具备两个特性:

  每个神经元,通过某种特定的输出函数 (也叫激励函数 activation function),计算处理来自其它相邻神经元的加权输入值

  神经元之间的信息传递的强度,用所谓加权值来定义,算法会不断自我学习,调整这个加权值

  在此基础上,神经网络的计算模型,依靠大量的数据来训练,还需要:

  成本函数 (cost function):用来定量评估根据特定输入值, 计算出来的输出结果,离正确值有多远,结果有多靠谱

  学习的算法 ( learning algorithm ):这是根据成本函数的结果, 自学, 纠错, 最快地找到神经元之间最优化的加权值

  用小明、小红和隔壁老王们都可以听懂的语言来解释,神经网络算法的核心就是:计算、连接、评估、纠错、疯狂培训。

  随着神经网络研究的不断变迁,其计算特点和传统的生物神经元的连接模型渐渐脱钩。

  但是它保留的精髓是:非线性、分布式、并行计算、自适应、自组织。

  三

  神经网络作为一个计算模型的理论,1943年 最初由科学家 Warren McCulloch 和 Walter Pitts 提出。

  康内尔大学教授 Frank Rosenblatt 1957年 提出的“感知器” (Perceptron),是第一个用算法来精确定义神经网络,第一个具有自组织自学习能力的数学模型,是日后许多新的神经网络模型的始祖。

  

  Rosenblatt 乐观地预测,感知器最终可以 “学习、做决定、翻译语言”。感知器的技术,六十年代一度走红,美国海军曾出资支持这个技术的研究,期望它 “以后可以自己走、说话、看、读、自我复制、甚至拥有自我意识”。

  Rosenblatt 和 Minsky 实际上是间隔一级的高中校友。但是六十年代,两个人在感知器的问题上展开了长时间的激辩。Rosenblatt 认为感应器将无所不能,Minsky 则认为它应用有限。

  1969 年,Marvin Minsky 和 Seymour Papert 出版了新书:“感知器:计算几何简介”。书中论证了感知器模型的两个关键问题:

  第一,单层的神经网络无法解决不可线性分割的问题,典型例子如异或门,XOR Circuit ( 通俗地说,异或门就是:两个输入如果是异性恋,输出为一。两个输入如果是同性恋,输出为零 )

  第二,更致命的问题是,当时的电脑完全没有能力完成神经网络模型所需要的超大的计算量。

  此后的十几年,以神经网络为基础的人工智能研究进入低潮,相关项目长期无法得到政府经费支持,这段时间被称为业界的核冬天。

  Rosenblatt 自己则没有见证日后神经网络研究的复兴。1971年 他 43 岁生日时,不幸在海上开船时因为事故而丧生。

  1970年,当神经网络研究的第一个寒冬降临时。在英国的爱丁堡大学,一位二十三岁的年轻人,Geoffrey Hinton,刚刚获得心理学的学士学位。

  Hinton 六十年代还是中学生时,就对脑科学着迷。当时一个同学给他介绍关于大脑记忆的理论是:

  大脑对于事物和概念的记忆,不是存储在某个单一的地点,而是像全息照片一样,分布式地,存在于一个巨大的神经元的网络里。

  分布式表征 (Distributed Representation),是神经网络研究的一个核心思想。

  它的意思是,当你表达一个概念的时候,不是用单个神经元一对一地存储定义;概念和神经元是多对多的关系:一个概念可以用多个神经元共同定义表达,同时一个神经元也可以参与多个不同概念的表达。

  举个最简单的例子。一辆 “大白卡车”,如果分布式地表达,一个神经元代表大小,一个神经元代表颜色,第三个神经元代表车的类别。三个神经元同时激活时,就可以准确描述我们要表达的物体。

  分布式表征和传统的局部表征 (localized representation) 相比,存储效率高很多。线性增加的神经元数目,可以表达指数级增加的大量不同概念。

  分布式表征的另一个优点是,即使局部出现硬件故障,信息的表达不会受到根本性的破坏。

  这个理念让 Hinton 顿悟,使他四十多年来,一直在神经网络研究的领域里坚持下来没有退缩。

  本科毕业后,Hinton 选择继续在爱丁堡大学读研,把人工智能作为自己的博士研究方向。

  周围的一些朋友对此颇为不解。“你疯了吗? 为什么浪费时间在这些东西上? 这 (神经网络) 早就被证明是扯淡的东西了。”

  Hinton 1978 年在爱丁堡获得博士学位后,来到美国继续他的研究工作。

  二

  神经网络当年被 Minsky 诟病的问题之一是巨大的计算量。

  简单说,传统的感知器用所谓 “梯度下降”的算法纠错时,耗费的计算量和神经元数目的平方成正比。当神经元数目增多,庞大的计算量是当时的硬件无法胜任的。

  1986年 七月,Hinton 和 David Rumelhart 合作在自然杂志上发表论文, “Learning Representations by Back-propagating errors”,第一次系统简洁地阐述反向传播算法在神经网络模型上的应用。

  反向传播算法,把纠错的运算量下降到只和神经元数目本身成正比。

  反向传播算法,通过在神经网络里增加一个所谓隐层 (hidden layer),同时也解决了感知器无法解决异或门 (XOR gate) 的难题。

  使用了反向传播算法的神经网络,在做诸如形状识别之类的简单工作时,效率比感知器大大提高。

  八十年代末计算机的运行速度,也比二十年前高了几个数量级。

  神经网络的研究开始复苏。

  三

  Yann Lecun (我给他取个中文名叫 “严乐春”吧) 1960年 出生于巴黎。1987年 在法国获得博士学位后,他曾追随 Hinton 教授到多伦多大学做了一年博士后的工作,随后搬到新泽西州的贝尔实验室继续研究工作。

  在贝尔实验室,严乐春 1989年 发表了论文, “反向传播算法在手写邮政编码上的应用”。他用美国邮政系统提供的近万个手写数字的样本来培训神经网络系统,培训好的系统在独立的测试样本中, 错误率只有 5%。

  严乐春进一步运用一种叫做“卷积神经网络” (Convoluted Neural Networks) 的技术,开发出商业软件用于读取银行支票上的手写数字,,这个支票识别系统在九十年代末占据了美国接近 20%的市场。

  此时就在贝尔实验室,严乐春临近办公室的一个同事的工作,又把神经网络的研究带入第二个寒冬。

  四

  Vladmir Vapnik,1936年 出生于前苏联,90年 移民到美国,在贝尔实验室做研究。

  早在 1963年,Vapnik 就提出了 支持向量机 (Support Vector Machine) 的算法。支持向量机,是一种精巧的分类算法。

  除了基本的线性分类外,在数据样本线性不可分的时候,SVM 使用所谓 “核机制” (kernel trick) 的非线性映射算法,将线性不可分的样本转化到高维特征空间 (high-dimensional feature space),使其线性可分。

  SVM,作为一种分类算法,九十年代初开始,在图像和语音识别上找到了广泛的用途。

  在贝尔实验室的走廊上,严乐春和 Vapnik 常常就 (深度) 神经网络和 SVM 两种技术的优缺点,展开热烈的讨论。

  Vapnik 的观点是:SVM,非常精巧地在 “容量调节” (Capacity Control) 上 选择一个合适的平衡点,而这是神经网络不擅长的。

什么是 “容量调节”? 举个简单的例子:如果算法容量太大,就像一个记忆力极为精准的植物学家,当她看到一颗新的树的时候,由于这棵树的叶子和她以前看到的树的叶子数目不一样,所以她判断这不是树;如果算法容量太小,就像一个懒惰的植物学家,只要看到绿色的东西都把它叫做树。

  严乐春的观点是:用有限的计算能力,解决高度复杂的问题,比“容量调节”更重要。支持向量机,虽然算法精巧,但本质就是一个双层神经网络系统。它的最大的局限性,在于其“核机制”的选择。当图像识别技术需要忽略一些噪音信号时,卷积神经网络的技术,计算效率就比 SVM 高的多。

 在手写邮政编码的识别问题上,SVM 的技术不断进步,1998年 就把错误率降到低于 0.8%,2002年 最低达到了 0.56%,这远远超越同期传统神经网络算法的表现。
  神经网络的计算,在实践中还有另外两个主要问题: 

  第一,算法经常停止于局部最优解,而不是全球最优解。这好比“只见树木,不见森林”。

  第二,算法的培训,时间过长时,会出现过度拟合 (overfit),把噪音当做有效信号。

时间: 2024-10-29 12:35:09

深度学习-神经网络 历史的相关文章

忽悠神经网络指南:教你如何把深度学习模型骗得七荤八素

知己知彼,无论你是想成为黑客(最好不要!)或防范未来黑客的入侵,都有必要来了解一下如何骗过由海量数据训练出来的深度学习模型. 只要有程序员还在编程,黑客们就会不遗余力地找寻利用这些程序的方法.恶意黑客更是会利用程序中最为微小的漏洞来侵入系统,窃取数据,对系统造成严重破坏. 但由深度学习算法驱动的系统应该是能够避免人为干扰的,对吧? 一个黑客怎么能够突破被TB(兆兆字节)级数据训练的神经网络呢? 然而事实证明,即使是最先进的深层神经网络也是很容易被欺骗的.只需要使用一些小技巧,你就可以迫使模型预测

CMU论文:一部深度学习发展史,看神经网络兴衰更替

以古为鉴,可知兴替.今天为大家带来一篇来自CMU的最新论文:On the Origin of Deep Learning,为读者回顾和解析深度学习的发展历史. 论文地址:https://128.84.21.199/abs/1702.07800 提要 本文回顾了深度学习模型的演化历史.作者从神经网络的滥觞--联想主义心理学出发,讲到引领了过去10年研究方向的深度学习模型,比如卷积神经网络.深度置信网络.递归神经网络,一直延伸至最近流行的一些模型,如变分自编码器.作为对这些模型回顾的补充,本文特别关

深入研究神经网络和深度学习

机器学习技术正在走进数据中心,它既能改善内部IT管理,还能使关键业务流程更加智能化.你可能已经听说过深度学习的神秘性了,它涉及到一切领域,从系统管理到自动驾驶汽车.到底深度学习是一个刚刚在世人面前揭开面纱的非常聪明的新兴人工智能,还是仅仅一种营销宣传手段,将已有的复杂机器学习算法重新包装成为新的卖点? 深度学习无疑激发了大众的想象力,但它其实并不那么复杂.在技术层面上,深度学习主要指大规模运行的大型计算密集型神经网络.这些神经网络往往是由难以用基于逻辑和规则的机器学习方法进行处理的大数据集训练而

深度学习零基础进阶第三弹​|干货分享

雷锋网(公众号:雷锋网)曾编译<干货分享 | 深度学习零基础进阶大法!>,相信读者一定对深度学习的历史有了一个基本了解,其基本的模型架构(CNN/RNN/LSTM)与深度学习如何应用在图片和语音识别上肯定也不在话下了.今天这一部分,我们将通过新一批论文,让你对深度学习的方式与深度学习在不同领域的运用有个清晰的了解.由于第二部分的论文开始向细化方向延展,因此你可以根据自己的研究方向酌情进行选择.雷锋网对每篇论文都增加了补充介绍,分上下两篇,由老吕IO及奕欣编译整理,未经雷锋网许可不得转载. 4.

Facebook对深度学习的追求:让机器理解我们

要理解人工智能的历史,我们得先回到1995年. 彼时,一名年轻的法国人Yann Lecun花了10多年时间做一件事:模仿大脑的某些功能来打造人工智能机器.这件事在许多计算机科学家看来是一个坏主意,但Lecun的研究已经表明,这种做法可以造出智能而且真正有用的产品. 在贝尔实验室工作期间,他开发出了一些模拟神经元的软件,通过读取不同的例子来辨识手写文本.而贝尔实验室的母公司--AT&T,也用利用这门技术,开发出了第一台可以读取支票和书写笔迹的机器.对于Lecun和人工神经网络的信徒们来说,这似乎是

干货分享 | 深度学习零基础进阶大法!

pixabay 编者按:新手上路都会有一个疑问,如果自己没有相关基础,如何学习晦涩的专业知识?此前雷锋网编译了<从0到1:我是如何在一年内无师自通机器学习的?>,这篇文章讲述了 Per Harald Borgen 的自学历程.而关于深度学习,GitHub的 songrotek 同样有话要说.原文名为<Deep Learning Papers Reading Roadmap>,雷锋网奕欣及老吕IO整理编译,未经许可不得转载. 0. 深度学习的"圣经" 提到入门级的

深度学习零基础进阶第四弹​|干货分享

雷锋网曾编译了<干货分享 | 深度学习零基础进阶大法!>系列,相信读者一定对深度学习的历史有了一个基本了解,其基本的模型架构(CNN/RNN/LSTM)与深度学习如何应用在图片和语音识别上肯定也不在话下了.今天这一部分,我们将通过新一批论文,让你对深度学习在不同领域的运用有个清晰的了解.由于第三部分的论文开始向细化方向延展,因此你可以根据自己的研究方向酌情进行选择.雷锋网对每篇论文都增加了补充介绍.这一弹主要从自然语言处理以及对象检测两方面的应用进行介绍. 本文编译于外媒 github,原文标

谢源:计算存储一体化,在存储里做深度学习,架构创新实现下一代AI芯片

谢源教授于1997年获得清华大学电子工程系学士学位,于1999年和2002年获得普林斯顿大学电机工程系硕士和博士学位.于2003年加入宾夕法尼亚州立大学计算机系,2008年获得终身教职,2012年提升正教授.2014年他转入加州大学圣芭芭拉分校电机与计算机工程系(ECE)担任正教授.他同时也是北京大学的兼职教授和台湾新竹清华大学的客座教授. 谢源教授也拥有丰富的工业界经验,他于2002-2003年任职于IBM担任微电子部门全球设计中心的咨询工程师,2012年到2013年期间加入AMD,负责组建和

脑芯编:分手?摆脱冯诺依曼的深度学习硬件

不知不觉,<脑芯编>已经走过了上半阙.默默挥手告别那些弃剧的看官,也由衷感谢仍然愿意用手指点进来的您.你们是撑住脑芯编不烂尾的重要力量,与其肉麻,不如再念一遍诗的上半阙: 昨夜神风送层云,(神经元与网络) 几重卷积几重生.(卷积神经网络) 梦里不知形与令,(计算体系结构) 烛台簇华照单影.(单指令多数据) 上次我们讲到,现行的计算机体系结构--"冯诺依曼"结构是阻碍深度学习神经网络的一个重要瓶颈.其计算和存储分离的特点,使得神经元计算的效率低下.合理改变指令集,加入乘累加指