深度学习并非万能,你用对了吗?

[ 导读 ]深度学习随着AlphaGo大胜李世石之后被“神话”,很多人认为深度学习就是挑战人类智力的“神器”。可是,深度学习真的如他们想象的那般“战无不胜”吗?本文编译自hyperparameter.space,作者是Pablo Cordero,就读于加利福尼亚大学圣克鲁斯校区,主攻方向为细胞生物学和再生医学背景下的应用机器学习研究。阅读此文后,你便能够从深层理解,为什么深度学习其实并不像普通百姓想象的那般“神”了,甚至,你还会发现它有时还有些“笨”。

我知道以一种较为消极的态度来作为博客的开头是很奇怪的方式,但是在过去几天里有一波讨论,我认为这是关于我最近一直在思考的话题一个很好的切入点。这一切都从Jeff Leek在Simply Stats博客中发表了一篇关于在小样本规模体系中使用深度学习的注意事项开始的。总之,他认为,当样本量很小(这在生物领域频繁发生)时,即使有一些层和隐藏单元,具有较少参数的线性模型的表现是优于深度网络的。他还表示,当在一个使用仅仅80个样本的MNIST数据集中进行0和1的分类时,一个具有十大最具特征值的非常简单的线性预测器的表现要比一个简单的深度网络好得多。这促使Andrew beam写出一篇文章来反驳,一个适当训练的深度网络能够击败简单的线性模型,即使是很少的训练样本。

现如今频繁出现的是,越来越多的生物医学信息学研究人员正在使用深度学习来解决各种问题。这种肆无忌惮的宣传是真的有效吗?或者说这种线性模型是我们所需要的吗?答案一如既往的是——这取决于先决条件。在这篇文章中,我想探索机器学习中的使用案例,实际上,深度学习并不是真正意义上对所有应用都有效,同时探索出我认为可以使得深度学习得到有效使用的解决想法,特别是针对新来者。

打破深度学习之偏见

首先,我们要剔除一些先入为主的偏见,很多圈外的人们还处于一知半解的状态。有两个广泛的认知点,而我将要对这个更为技术性的做一个详细说明。这有点像是对Andrew Beam在他的帖子中所完美地阐述的“误解”部分的延伸。

  • 深层学习确实可以在小样本的情况下进行

深度学习是在大数据的背景下产生的(请牢记,第一个Google大脑项目正在向深度网络提供大量YouTube视频),并自此不断地被宣称运行在大量数据中的复杂算法。不幸的是,这个大数据/深度学习对不知为何也被误解:在小样本条件下不能使用的虚构体。如果你只有几个样本,在一个具有高样本参数比例的神经网络中进行开发,看起来似乎会出现过度拟合。然而,仅仅考虑给定问题的样本容量和维度,无论是监督还是无监督,都几乎是在真空中对数据进行建模的,而无需任何背景。可能的情况是,你拥有与你问题相关的数据源,或者该领域专家可以提供强有力的数据源,或者数据可以以非常特殊的方式进行构建(例如,以图形或图像编码的方式进行)。

在所有这些情况下,深度学习有机会成为一种可供选择的方法——例如,你可以编码较大的相关数据集的有用表示,并将其应用于你的问题中。这种经典的示例常见于自然语言处理,你可以学习大型语料库中嵌入的词语,然后将它们作为一个较小的、较窄的语料库嵌入到一个监督的任务中。在极端情况下,你可以拥有一套神经网络,共同学习一种表示方式,并在小型样本中重用该表示的有效方式。这被称为一次性学习(one-shot learning),并已经成功应用于包括计算机视觉和药物发现在内的高维数据的许多领域当中。

 

药物发现中的一次性学习神经网络,摘自Altae-Tran et al. ACS Cent. Sci. 2017

  • 深度学习不是一切的答案

我听到最多的第二个偏见就是过度宣传。许多尚未从事AI职业的人,期望深度网络能够给他们一个神话般的表现提升力,仅仅因为它在其他领域有效。其他人则从深度学习在图像、音乐和语言(最贴近人类的三种数据类型)中的令人印象深刻的表现中受到鼓舞,并通过尝试训练最新的GAN架构,而匆匆一头扎进这个领域。当然,在许多方面这种过度宣传也是真实存在的。


深度学习已经成为机器学习中不可否认的力量,也是数据建模者的重要工具。它的普及带来了诸如tensorflow和pytorch等重要框架,它们即使是在深度学习之外也是非常有用的。失败者的巨星崛起的故事激励了研究人员重新审视其他以前模糊的方法,如进化方法和强化学习。但这不是万能的。除了考虑天下没有免费的午餐之外,深度学习模型可以非常细微,并且需要仔细,有时甚至是非常昂贵的超参数搜索、调整和测试(文章后续将有更多讲解)。此外,有很多情况下,从实践的角度来看,使用深度学习是没有意义的,而更简单的模型工作得更好。

  • 深度学习不仅仅是.fit()

深度学习模型还有另外一个方面的应用,我认为在其他机器学习领域方面是有所损失的。大多数深度学习的教程和介绍性材料描述了这些模型由层次连接的节点层组成,其中第一层是输入,最后一层是输出,并且你可以使用某种形式的随机梯度下降(SGD)来训练它们。可能有一些简要的介绍随机梯度下降是如何工作的,以及什么是反向传播,大部分解释集中在神经网络类型(卷积、循环等)。而优化方法本身却没有什么人关注,这是很不幸的,因为很有可能深度学习为什么能够起作用的很大(如果不是最大的)一部分原因就是这些特定的方法(例如来自Ferenc Huszár’s的这篇文章和从该文中引用的论文),并且要知道,如何优化它们的参数,以及如何分割数据,从而有效地使用它们以便在合理的时间内获得良好的收敛,是至关重要的。


不过,为什么随机梯度如此关键却仍然是未知的,现在也或多或少地出现了一些线索。我最喜欢的一个是将该方法解释为执行贝叶斯推理的一部分。实质上,每当你做某种形式的数值优化时,你都会用特定的假设和先验来执行一些贝叶斯推理。实际上,有一个被称为概率数值计算(probabilistic numerics)的整个领域,就是从这个角度出现的。随机梯度下降是没有什么不同,最新的研究成果表明,该程序实际上是一个马尔可夫链,在某些假设下,可以看作是后向变分近似的静态分布。所以当你停止你的SGD并采用最后的参数时,你基本上是从这个近似分布中抽样的。

我发现这个想法是有启发性的,因为优化器的参数(在这种情况下是学习率)使得这种方式更有意义。例如,当你增加SGD的学习参数时,马可夫链就会变得不稳定,直到找到大面积采样的局部极小值;也就是说,增加了程序的方差。另一方面,如果你减少学习参数,马尔可夫链慢慢接近狭义极小值,直到它收敛于一个区域;那就是你增加某个区域的偏差。而另一个参数,SGD中的批量大小也可以控制算法收敛的区域是什么类型的区域:小批量的较大区域和大批次的小区域。

 

SGD根据学习速率或批量大小而选择较大或极限最小值

这种复杂性意味着深度网络的优化器变得非常重要:它们是模型的核心部分,与层架构一样重要。这与机器学习中的许多其他模型并不完全相同。线性模型(甚至是正则化的,像LASSO算法)和支持向量机SVM都是凸优化问题,没有那么多的细微差别,而且只有一个答案。这就是为什么来自其他领域或使用诸如scikit-learn工具的人在他们没有找到一个非常简单的具有.fit()方法的API时会感到困惑。尽管有一些工具,如skflow,尝试将网络简化成一个.fit()签名,我认为这有点误导,因为深度学习的全部重点就是它的灵活性。

何时不需要深度学习?

那么,什么时候深度学习不适合于某些任务呢?从我的角度来看,以下这些情况下,深度学习更多是一种阻碍,而不是福音。

  • 低预算或低投入问题

深度网络是非常灵活的模型,具有多种架构和节点类型、优化器和正则化策略。根据应用程序,你的模型可能具有卷积层(多大?使用什么池操作?)或循环结构(有没有门控?);它可能真的很深(hourglass、siamese,或者其他的架构),还是只是具有很少的几个隐藏层(有多少单元?);它可能使用整流线性单元或其他激活函数;它可能会有退出(在什么层次中?用什么分数?),权重应该是正则化的(l1、l2,或者是某些更奇怪的东西?)。这只是一部分列表,还有很多其他类型的节点、连接,甚至损失函数。即便只是训练一个大型网络的示例,那些需要调整的参数以及需要探索的框架的过程也是非常耗时的。


谷歌最近吹嘘自己的AutoML方法可以自动找到最好的架构,这是非常令人印象深刻的,但仍然需要超过800个GPU,全天候运行数周,这几乎对于任何人来说都是遥不可及的。关键在于训练深层网络时,在计算和调试部分都会花费巨大的代价。这种费用对于许多日常预测问题并没有意义,即使调整小型网络。调整网络的投资回报率可能太低。即使有足够的预算和承诺,也没有理由不尝试替代方法,即使是基准测试。你可能会惊喜地发现,线性SVM对于你就够用了。

  • 解释和传达模型参数对一般受众的重要性

深度网络也是个臭名昭着的黑匣子,它具有高预测能力但可解释性不足。尽管最近有很多工具,诸如显著图(saliency maps)和激活差异(https://arxiv.org/abs/1704.02685),对某些领域而言是非常有用的,但它们不会完全迁移到所有的应用程序中。主要是,当你想要确保网络不会通过记住数据集或专注于特定的虚假特征来欺骗你时,这些工具就能很好地工作,但仍然难以将每个功能的重要性解释为深度网络的整体决策。

在这个领域,没有什么能够真正地打败线性模型,因为学习系数与响应有着直接的关系。当将这些解释传达给一般受众时,这就显得尤为重要。例如,医生需要包含各种不同的数据来确认诊断。变量和结果之间的关系越简单、越直接,医生就能更好地利用,而不是低于/高于实际值。此外,有些情况下,模型的精度并不像可解释性那样重要。例如,策略制定者可能想知道一些人口统计变量对于死亡率的影响,并且相较于预测的准确性来说,可能对这种关系的直接近似比更有兴趣。在这两种情况下,与更简单、更易渗透的方法相比,深度学习处于不利地位。

  • 建立因果机制

模型可解释性的极端情况是当我们试图建立一个机械模型,即实际捕捉数据背后的现象的模型。一个好的例子包括试图猜测两个分子(例如药物、蛋白质、核酸等)是否在特定的细胞环境中相互作用,或者假设特定的营销策略如何对销售产生实际的影响。在这个领域,根据专家意见,没有什么可以击败老式的贝叶斯方法,它们是我们表达并推断因果关系的最好方式。Vicarious有一些很好的最新研究成果,说明为什么这个更原则的方法在视频游戏任务中比深度学习表现得更好。

  • 学习“非结构化”特征

这可能是具有争议性的。我发现深度学习擅长的一个领域是为特定任务找到有用的数据表示。一个很好的例子就是上述的词语嵌入。自然语言具有丰富而复杂的结构,可以说与“上下文感知”(context-aware)网络相近似:每个单词都可以在向量中表示,而这个向量可以编码其经常使用的文本。在大型语料库中学习的NLP任务中使用单词嵌入,它有时可以在另一个语料库的特定任务中提升效果。然而,如果所讨论的语料库是完全非结构化的,则可能不会起到任何作用。

例如,假设你正在通过查看关键字的非结构化列表来对对象进行分类,由于关键字不是在任何特定结构中都会使用的(比如在一个句子中),所以单词嵌入不太可能有助于所有这些情况。在这种情况下,数据是一个真正的单词包,这种表示很有可能足以满足任务所需。与此相反的是,如果你使用预训练的话,可以更好地捕获关键字的相似度,而且单词嵌入并不是那么昂贵。不过,我还是宁愿从一个单词的表示开始,看看能否得到很好的预测结果。毕竟,这个词包的每个维度都比对应的词嵌入槽更容易解读。

  • 前景广阔

深度学习目前非常火爆,且资金充足,并且发展异常迅速。当你还在阅读会议上发表的论文时,它可能已经有两三次迭代了。这给我上述列出的几点提出了很大的挑战:深度学习在不久的将来可能在这些情景中是非常有用的。用于解释图像和离散序列的深度学习模型的工具越来越好。最近的软件,如Edward与贝叶斯结合建模和深度网络框架,将量化神经网络参数的不确定性考虑在内,通过概率编程的简易贝叶斯推理和自动变分推理。从长远来看,可能会有一个简化的建模词汇表,指出深度网络可以具有的显著属性,从而减少需要尝试的参数空间。

Edward通过tensorflow与概率规划结合,将深度学习和贝叶斯的模型考虑在内。摘自Tran et al. ICLR 2017



原文发布时间为:2017-07-15 

本文作者:Pablo Cordero

时间: 2024-10-26 15:38:52

深度学习并非万能,你用对了吗?的相关文章

最新信息瓶颈理论,打开深度学习的万能黑匣子

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 只要你能想到的出,什么都可以交给万能的深度学习--聊天.开车.打游戏.战胜世界围棋冠军--但是,虽然人类创造了它,其内部机制却像个黑匣子,我们所知甚少,除了隐约知道这种学习系统的设计灵感正是我们自己的大脑.哦对了,如果你对脑科学有所了解的话,大脑也是一个我们所知甚少的黑匣子. 深度学习的机制也和大脑很像.大脑中,神经元激活后会给与其相联系的神经元发送信号.对深度学习来说,深度神经网络也有神经元,它们之间的联系

对比深度学习十大框架:TensorFlow 并非最好?

对于那些听说过深度学习但还没有太过专门深入的人来说,TensorFlow 是他们最喜欢的深度学习框架,但在这里我要澄清一些事实. 在 TensorFlow 的官网上,它被定义为「一个用于机器智能的开源软件库」,但我觉得应该这么定义:TensorFlow 是一个使用数据流图(data flow graphs)进行数值计算的开源软件库.在这里,他们没有将 TensorFlow 包含在「深度学习框架」范围内,而是和 Theano 一起被包含在「图编译器(graph compilers)」类别中. 在结

深度学习 vs 机器学习 vs 模式识别

本文我们来关注下三个非常相关的概念(深度学习.机器学习和模式识别),以及他们与2015年最热门的科技主题(机器人和人工智能)的联系. 图1 人工智能并非将人放入一台计算机中(图片来源于 WorkFusion 的博客) 环绕四周,你会发现不缺乏一些初创的高科技公司招聘机器学习专家的岗位.而其中只有一小部分需要深度学习专家.我敢打赌,大多数初创公司都可以从最基本的数据分析中获益.那如何才能发现未来的数据科学家?你需要学习他们的思考方式. 三个与"学习"高度相关的流行词汇 模式识别(Patt

专访 | 清华大学朱军:深度学习“盛行”,传统方法何去何从?

朱军博士是清华大学计算机系长聘副教授.智能技术与系统国家重点实验室副主任.卡内基梅隆大学兼职教授.2013年,入选IEEE Intelligent Systems的"人工智能10大新星"(AI's 10 to Watch).他主要从事机器学习研究,在国际重要期刊与会议发表学术论文80余篇.担任国际期刊IEEE TPAMI和Artificial Intelligence的编委.国际会议ICML 2014地区联合主席.以及ICML.NIPS等国际会议的领域主席. 清华大学计算机系长聘副教授

深度学习入门:投身深度学习你需要哪些准备?

更多深度文章,请关注:https://yq.aliyun.com/cloud 我想回答一些我经常被问到的问题:我需要什么样的电脑来进行深度学习?为什么fast.ai推荐Nvidia GPU?你为初学者推荐什么深度学习库?你如何把深度学习引入生产?我认为这些问题都属于一个总的主题:你需要什么(硬件.软件.背景和数据)来进行深入学习? 这篇文章是针对那些新进入这个领域的,并且对入门感兴趣的人. 你需要的硬件 我们感谢游戏业 电子游戏行业(收入方面)大于电影和音乐行业的总和. 在过去的20年里,视频游

入门级攻略:机器学习 VS. 深度学习

楔子:      机器学习和深度学习现在很火,你会发现突然间很多人都在谈论它们.如下图所示,机器学习和深度学习的趋势对比(来自Google trend,纵轴表示搜索热度):   本文将会以简单易懂的语言及示例为大家详细解释深度学习和机器学习的区别,并介绍相关用途. 机器学习和深度学习简介 机器学习      Tom Mitchell 关于机器学习的定义被广泛引用,如下所示: 对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而不断自我完善,那么我们称这个计算机程序在从经

揭开知识库问答KB-QA的面纱5·深度学习上篇

自 2015 年开始,深度学习用于 KB-QA 的方法取得了很好的效果,并逐渐成为了 KB-QA 的主流方法.也涌现出了一批使用深度学习提升传统的语义解析.信息抽取和向量建模方法的优秀论文.本期,我们先以深度学习提升向量建模方法为例,作为深度学习篇的上篇,为大家进一步揭开知识库问答的面纱. 我们在揭开知识库问答KB-QA的面纱4·向量建模篇介绍了 KB-QA 中介绍了传统方法之一的向量建模(Vector Modeling)方法,该方法具有操作性强,不需要任何手工的特征等优点. 今天,我们将介绍一

【深度】“信息瓶颈”理论揭示深度学习本质,Hinton说他要看1万遍

本文讲的是"信息瓶颈"理论揭示深度学习本质,Hinton说他要看1万遍,利用深度神经网络的机器已经学会了交谈.开车,在玩视频游戏和下围棋时击败了世界冠军,还能做梦.画画,帮助进行科学发现,但同时它们也深深地让其发明者困惑,谁也没有料到所谓的"深度学习"算法能做得这么好.没有基本的原则指引这些学习系统,除了一些模糊的来自人类大脑的设计灵感(而关于这一点,实际上也没有人真正懂得多少). 像大脑一样,深度神经网络也有很多层神经元.当神经元被激活时,它会发出信号,连接上面一

深度学习的这些坑你都遇到过吗?神经网络 11 大常见陷阱及应对方法

如果你的神经网络不工作,该怎么办?本文作者列举了搭建神经网络时可能遇到的11个常见问题,包括预处理数据.正则化.学习率.激活函数.网络权重设置等,并提供解决方法和原因解释,是深度学习实践的有用资料. 如果你的神经网络不工作,该怎么办?作者在这里列出了建神经网络时所有可能做错的事情,以及他自己的解决经验. 忘记规范化数据 忘记检查结果 忘记预处理数据 忘记使用正则化 使用的batch太大 使用了不正确的学习率 在最后层使用了错误的激活函数 你的网络包含了Bad Gradients 初始化网络权重不