《中国人工智能学会通讯》——4.39 什么是深度强化学习?

4.39 什么是深度强化学习?

现在街头巷尾都在谈论的机器学习,其实是一个非常宽泛的概念,而其中最酷的分支要算是深度学 习(Deeplearning) 和 强 化 学 习(Reinforcementlearning)了。谷歌的 DeepMind 就是将深度学习和强化学习这两者的精髓合二为一,提出了深度强化学习。在 2014 年的时候,这个团队就在《Nature》杂志上发表了题为《Human-level control through deepreinforcement learning》的论文,让业界对此充满了期待。

深度学习起源于 2006 年,这要感谢机器学习领域的泰斗 Geoffrey Hinton 先生,是他在《Science》上的一篇著名论文开启了深度学习的浪潮。Geoffrey Hinton先生是个非常勤奋的学者,老人家腰椎不是太好,写个代码都得站着,而且还无法坐飞机,正所谓,伟大的人总要有伟大的付出,在此,向他致敬!

深度学习是一种机器学习中建模数据的隐含分布的多层表达的算法。换句话来说,深度学习算法自动提取分类中所需要的低层次或者高层次特征,因此深度学习能够更好的表示数据的特征;同时由于模型的层次、参数很多,容量也足够,因此深度学习模型有能力表示大规模数据。所以对于图像、语音这种特征不明显的棘手问题,反而能够借助深度学习在大规模训练数据上取得更好的效果。而且由于深度学习将特征和分类器结合到一个框架中,用数据去学习特征,在使用中减少了手工提取特征的巨大工作量,因此不仅仅效果可以更好,而且应用起来也非常方便。因此深度学习在图像识别和语音识别方面获得了巨大的进步。

强化学习,其实,就是一个连续决策的过程,其特点是不给任何数据做标注,仅仅提供一个回报函数,这个回报函数决定当前状态得到什么样的结果(比如“好”还是“坏”),从数学本质上来看,还是一个马尔科夫决策过程。强化学习最终目的是让决策过程中整体的回报函数期望最优。

通过所谓的类似于人脑网状结构的神经网络,深度学习是可以解决很多很实际的问题。例如谷歌的图像搜索、Facebook 的人脸识别、Skype 的实时翻译,以及 Twitter 的色情语言识别。强化学习则将深度学习又往前推进了一步,一旦你建立起了一个玩游戏的深度学习网络,你可以通过强化学习,让它和自己进行比赛,自我进化。

时间: 2024-10-01 16:32:53

《中国人工智能学会通讯》——4.39 什么是深度强化学习?的相关文章

中国人工智能学会通讯——当知识图谱“遇见”深度学习 1.1 知识图谱与深度学习融合的历史背景

大数据时代的到来,为人工智能的飞速 发展带来前所未有的数据红利.在大数据的 "喂养"下,人工智能技术获得了前所未有 的长足进步.其进展突出体现在以知识图谱 为代表的知识工程以及深度学习为代表的机 器学习等相关领域.随着深度学习对于大数 据的红利消耗殆尽,深度学习模型效果的天 花板日益迫近.另一方面大量知识图谱不断 涌现,这些蕴含人类大量先验知识的宝库却 尚未被深度学习有效利用.融合知识图谱与 深度学习,已然成为进一步提升深度学习模 型效果的重要思路之一.以知识图谱为代表 的符号主义,以

《中国人工智能学会通讯》——6.4 基于深度学习的知识图谱构建

6.4 基于深度学习的知识图谱构建 随着深度学习在自然语言处理领域应用的不断深入,人们也开始尝试将深度神经网络用于知识图谱的自动构建.在此,以实体和关系的表示学习技术为基础,讨论深度学习在命名实体识别.关系抽取.关系补全等任务上的应用. 命名实体识别 命名实体识别是从文本中提取出和人名.地名等特定的短语或名称的任务.早期的命名实体识别主要基于规则和词典来进行,对规律性较强的文本环境较为适合,但难以摆脱对领域专家的的依赖,费时费力且难以移植[28] .随着语料数据的增长,研究者逐步将机器学习和统计

《中国人工智能学会通讯》——2.23 贝叶斯规划学习

2.23 贝叶斯规划学习 BPL 算法通过学习简单的随机规划来表示概念,这些规划是由部件(见图 3A iii).子部件(见图 3A ii)以及空间关系(见图 3A iv)组合而成的.BPL 定义了一个生成过程,它可以通过用新的方式组合部件以及子部件来采样出新的概念类型.每种新的类型也表示为一个生成模型,这个较低层次的生成模型可以产生概念的新样例(或者记号)(见图 3A v),从而使 BPL 成为一个产生生成模型的模型.模型的最后一步用原始数据的格式来渲染记号级变量(见图 3A vi).我们把类型

《中国人工智能学会通讯》——2.27 利用深度学习改进统计机器翻译

2.27 利用深度学习改进统计机器翻译 利用深度学习改进统计机器翻译的核心思想是以统计机器翻译为主体,使用深度学习改进其中的关键模块,如语言模型[1] .翻译模型 [2] .调序模型 [3] .词语对齐[4]等. 深度学习能够帮助机器翻译缓解数据稀疏问题.以语言模型为例.语言模型能够量化译文的流利度,对译文的质量产生直接的重要影响,是机器翻译中的核心模块.传统的语言模型采用 n-gram方法,通过极大似然估计训练模型参数.由于这种方法采用离散表示(即每个词都是独立的符号),极大似然估计面临着严重

《中国人工智能学会通讯》——7.2 基于深度学习的自然语言处理

7.2 基于深度学习的自然语言处理 深度学习旨在模拟人脑对事物的认知过程,一般是指建立在含有多层非线性变换的神经网络结构之上,对数据的表示进行抽象和学习的一系列机器学习算法.该方法已对语音识别.图像处理等领域的进步起到了极大的推动作用,同时也引起了自然语言处理领域学者的广泛关注. 如图 1 所示,深度学习为自然语言处理的研究主要带来了两方面的变化,一方面是使用统一的分布式(低维.稠密.连续)向量表示不同粒度的语言单元,如词.短语.句子和篇章等:另一方面是使用循环.卷积.递归等神经网络模型对不同的

《中国人工智能学会通讯》——9.14 从多标记学习到标记分布学习

9.14 从多标记学习到标记分布学习 现有的机器学习范式中,与一个示例对应的标记复杂度相关的主要包括单标记学习(SLL, Single-Label Learning)与多标记学习(MLL, Multi-LabelLearning).其中 SLL 假设每个训练示例对应一个标记,而 MLL 允许一个训练示例对应多个标记.MLL 能够处理示例与标记之间一对多的不确定性,因此比 SLL 更具有通用性. MLL 与 SLL 类似,旨在解决"哪些标记可以描述示例",而不能解决"标记在多大

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推

中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )

到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它有时候还会错过 一个交通标志牌,这时候怎么办呢?我 们会发现在路面上也有非常明显的视觉 特征,我只要把路面的这些视觉特征识 别出来进行匹配,其实是有连续的绝对 的视觉参考的.所以我们做的办法是, 把这个路面粘贴起来.这个粘贴的方法 很简单,跟我们手机拍场景图片一样, 我们慢慢移动的时候可以把这个场景

中国人工智能学会通讯——深蓝、沃森与AlphaGo

在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深蓝战胜卡斯帕罗夫之后,随着计算机硬件水平的提高,计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最高棋手的水平.但是,长期以来,在计算机围棋上进展却十分缓慢,在 2006 年引入了蒙特卡洛树搜索方法之后,也只能达到业余 5 段的水平.所以 AlphaGo 战胜韩国棋手李世石,确实是人