DeepMind:深度学习原理初探

去年11月,一篇名为《Playing Atari with Deep Reinforcement Learning》的文章被初创人工智能公司DeepMind的员工上传到了arXiv网站。两个月之后,谷歌花了500万欧元买下了DeepMind公司,而人们对这个公司的了解仅限于这篇文章。近日,Tartu大学计算机科学系计算神经学小组的学者在robohub网站发表文章,阐述了他们对DeepMind人工智能算法的复现。

在arXiv发表的原始论文中,描述了一个单个的网络,它能够自我学习从而自动的玩一些老的电视游戏。它仅仅通过屏幕上面的图像和游戏中的分数是否上升下降,从而做出选择性的动作。

在训练的一开始,这个程序对游戏一点都不了解。它并不知道这个游戏的目标,是保持生存、杀死谁或者是走出一个迷宫。它对这个游戏的影响也不清楚,并不知道它的动作会对这个游戏产生什么影响,甚至不知道这个游戏中会有哪些目标物品。通过在这个游戏中尝试并且一遍一遍失败,这个系统会逐渐学会如何表现来获得比较好的分数。同时需要注意的是,这个系统对所有不同的游戏使用了同样的系统结构,程序员没有对不同程序给予这个程序任何特殊的提示,比如上、下或者开火等等。

最终结果显示,这个系统能够掌握一些游戏,并且比一些人类玩家还要玩得好。这个结果可以看作对AGI(Artificial General Intelligence)迈近的一小步,非常吸引人。文章给出了如下的细节,从任务、机器学习基础、深度学习模型和学习过程四部分阐述了他们的工作。

一、任务

这个系统获得了某个游戏屏幕的某幅图像,如下图是从一个最简单的游戏Breakout中获取的一幅图片。在简单的分析之后,它已经选择了如何做出下一步。这个动作已经被执行了,并且这个系统被告知了分数是否增加了、减少了或者没有变。基于这个信息,以及已经进行了的大量的游戏,这个系统会学习如何玩从而提高游戏的分数。

二、机器学习和人工神经网络

在深入深度学习的实现过程之前,文章先介绍了机器学习和人工神经网络的概念。机器学习的一个非常通常的任务是这样的:给出了一个目标的信息,从而能够知道它属于哪个种类。在深度学习的过程中,程序想要决定在目前游戏状态下如何进行下一步动作。机器学习算法从例子中进行学习:给出了许多的目标例子和它们的种类,学习算法从中找出了那些能够鉴定某个种类的目标特征。学习算法会产生一个模型,能够在训练集中最小化错误分类率。这个模型之后会被用来预测那个未知目标的种类。

人工神经网络ANN(Artificial Neural Networks)是机器学习的一个算法。它是由人类的大脑结构产生的灵感。这个网络由许多节点组成,如同大脑由神经元组成,并且互相之间联系在一起,如同神经元之间通过神经突触和神经树联系在一起。对于每个神经元,都会对其应该传递的信号的情况做特殊规定。通过改变这些连接的强弱,可以使得这些网络计算更加快速。现在神经网络的结构通常由如下部分组成:

  • 神经的输入层(获得目标的描述)
  • 隐藏层(主要部分,在这些层中学习)
  • 输出层(对于每个种类都一个神经节点,分数最高的一个节点就是预测的种类)

在学习过程结束之后,新的物体就能够送入这个网络,并且能够在输出层看到每个种类的分数。

三、深度学习

在这个系统中,一个神经网络被用来期望在当前游戏状态下每种可能的动作所得到的反馈。下图给出了文章中所提到的神经网络。这个网络能够回答一个问题,比如“如果这么做会变得怎么样?”。网络的输入部分由最新的四幅游戏屏幕图像组成,这样这个网络不仅仅能够看到最后的部分,而且能够看到一些这个游戏是如何变化的。输入被经过三个后继的隐藏层,最终到输出层。

输出层对每个可能的动作都有一个节点,并且这些节点包含了所有动作可能得到的反馈。在其中,会得到最高期望分数的反馈会被用来执行下一步动作。

四、学习过程

系统通过学习过程来计算最高期望分数。确切地说,在定义了网络的结构之后,剩下唯一会变化的就只有一件事:连接之间的强弱程度。学习过程就是调整这些方式地权重,从而使得通过这个网络的训练样例获得好的反馈。

文章将这个问题当作一个优化问题,目标是获取最好的反馈。可以通过将梯度下降与激励学习方法结合起来解决。这个网络不仅仅需要最大化当前的反馈,还需要考虑到将来的动作。这一点可以通过预测估计下一步的屏幕并且分析解决。用另一种方式讲,可以使用(当前反馈减去预测反馈)作为梯度下降的误差,同时会考虑下一幅图像的预测反馈。

关于代码的更多细节,可以参考他们报告中的代码架构图:

五、总结

文章最后给出了DeepMind深度学习的整个流程:

1.构建一个网络并且随机初始化所有连接的权重

2.将大量的游戏情况输出到这个网络中

3.网络处理这些动作并且进行学习

4.如果这个动作是好的,奖励这个系统,否则惩罚这个系统

5.系统通过如上过程调整权重

6.在成千上万次的学习之后,超过人类的表现。

这个结果可以看做是在AGI方向的从传统机器学习迈出的一小步。尽管这一步可能非常小,这个系统可能都不知道或者理解它做的事情,但是这个深度学习系统的学习能力远远超过之前的系统。并且,在没有程序员做任何提示的情况下,它的解决问题的能力也更加宽广。他们的代码可以在GitHub主页上找到。

原文发布时间为:2014-10-12

时间: 2024-10-02 15:24:50

DeepMind:深度学习原理初探的相关文章

Deepmind "预测地图"论文背后:神经科学或将助力深度学习迎来新突破

对人类神经网络的理解越来越在左右人工智能的未来研究,连Deepmind也不例外. 2017年10月2日,<NATURE NEUROSCIENCE>发表了Deepmind的一篇<The hippocampus as a predictive map>的论文.这篇论文中,Deepmind通过对主管人类长期记忆行为的"海马体"(hippocampus)神经元活动的研究,进一步提出了可以转化为神经网络架构的"预测图"理论. 在博客中,Deepmind

谷歌4亿美金收购深度学习创业公司DeepMind Technologies

香港中文大学教授汤晓鸥.王晓刚及其研究团队上周宣布,他们研发的DeepID人脸识别技术的准确率超过99%,比肉眼识别更加精准.汤晓鸥领导的计算机视觉研究组 (mmlab.ie.cuhk.edu.hk) 开发了一个名为DeepID (深分证)的深度学习模型, 在LFW (Labeled Faces in the Wild)数据库上获得了99.15%的识别率.LFW是人脸识别领域使用最广泛的测试基准.实验表明,如果仅仅给出人脸中心区域,人用肉眼在LFW上的识别率为97.52%.在此之前,汤晓鸥的研究

【深度学习创作】用《权力的游戏》前五部训练RNN生成第六部(原理解析)

<权力的游戏>(英语:Game of Thrones)是一部中世纪史诗奇幻题材的美国电视连续剧.该剧以美国作家乔治·R·R·马丁的奇幻文学<冰与火之歌>系列作为基础改编创作. 按照作者计划,<冰与火之歌>系列将有7部,目前出版至第5部. 也就是说,从2011年开始,读者对第六部<凛冬的寒风>的等待已经超过了6年.   近日,一位名叫Zack Thoutt的工程师在开源社区Github上发起了这样一个项目:基于<冰与火之歌>前面五部作品,训练RNN

AR算法原理及深度学习在计算机视觉中的应用

去年以来,越来越多的AR技术被用在各大互联网公司APP的营销场景中,其中最多的便是AR识别和追踪.但一段时间内,真正掌握识别追踪核心技术和应用的国内团队并不多,甚至出现了专门提供AR识别SDK的小公司创业机会. 那么,AR识别技术背后的算法原理是什么,以及计算机视觉与深度学习在AR中的应用热点趋势有哪些?本次分享会从图像特征提取.特征匹配与图像变换.深度学习算法等方面给你进行深入浅出的技术展现,让AR识别技术不再成为难以逾越的技术壁垒. 原文链接

使用腾讯云 GPU 学习深度学习系列之二:Tensorflow 简明原理【转】

转自:https://www.qcloud.com/community/article/598765?fromSource=gwzcw.117333.117333.117333 这是<使用腾讯云 GPU 学习深度学习>系列文章的第二篇,主要介绍了 Tensorflow 的原理,以及如何用最简单的Python代码进行功能实现.本系列文章主要介绍如何使用 腾讯云GPU服务器 进行深度学习运算,前面主要介绍原理部分,后期则以实践为主. 往期内容: 使用腾讯云 GPU 学习深度学习系列之一:传统机器学

深度学习之Google Deepmind的alphago人工智能算法技术演变历程

  一.简介   有些人会有如下质疑"alphago都用了蒙特卡洛搜索树了,这变成了一部分搜索问题了并不是人工智能算法了或者说不够智能了",但我的拙见是人在思考问题的时候除了直觉.经验判断.逻辑推理之外也会去枚举.搜索,所以我觉得算法包含一部分搜索并不能直接说该算法这不够智能或者这不是智能算法了,我觉得更多的是要考虑该算法在该类问题上如何去刻画出人类的直觉.经验判断.逻辑推理等.   最近大家比较关心的围棋人机大战(alphago vs 李世石)中,deep mind基于Nature2

独家 | 一文读懂深度学习

Figure1. Deep learning导图   前言 深度学习(deep learning)的概念最早可以追溯到1940-1960年间的控制论(cybernetics),之后在1980-1990年间发展为连接主义(connectionism),第三次发展浪潮便是2006年由人工神经网络(Artificial neural network)扩展开来并发展成为今天十分火热的深度学习(Figure 2).实际上,深度学习的兴起和发展是非常自然的,人们在应用经典的机器学习方法时,需要对具体的问题或

GitHub 上 57 款最流行的开源深度学习项目

GitHub 上 57 款最流行的开源深度学习项目 本文整理了 GitHub 上最流行的 57 款深度学习项目(按 stars 排名).最后更新:2016.08.09 1.TensorFlow 使用数据流图计算可扩展机器学习问题 TensorFlow 是谷歌的第二代机器学习系统,按照谷歌所说,在某些基准测试中,TensorFlow 的表现比第一代的 DistBelief 快了2倍. TensorFlow 内建深度学习的扩展支持,任何能够用计算流图形来表达的计算,都可以使用 TensorFlow.

[译] 深度学习的未来

本文讲的是[译] 深度学习的未来, 原文地址:The future of deep learning 原文作者:Francois Chollet 译文出自:掘金翻译计划 本文永久链接:github.com/xitu/gold-m- 译者:Changkun Ou 校对者:MoutainOne, sunshine940326 这篇文章改编自我的书 Deep Learning with Python(Manning 出版社)第 9 章第 3 节(译者注:「结论」一章最后一小节). 它是讨论当前深度学习