自动化机器学习将成为下一个AI研究主流?听听数据科学家怎么说

雷锋网(公众号:雷锋网)按:在过去的一年当中,自动化机器学习已经成为一个众人感兴趣的话题。KDnuggets举办了一个关于该话题的博客大赛。结果喜人,有很多有意思的想法与项目被提出来了。一些自动化学习工具也引起了大家的兴趣,受到了大家的追捧。

本篇文章的作者 Matthew Mayo 将会对自动化学习进行简单的介绍,探讨下一下它的合理性、采用情况,介绍下它现在使用的工具,讨论下它预期的未来发展方向。本文由雷锋网编译,未经许可不得转载。

什么是自动化机器学习呢?

接下来我们要探讨的是自动化机器学习属于哪一类科学,以及它不属于哪一类科学。

自动化机器学习并不属于自动化数据科学。毫无疑问的是它与自动化数据科学有重复的部分。尽管如此,机器学习只是数据科学工具包中的一个工具。它无法对所有的数据科学任务起作用。例如,机器学习虽然适用于预测性的数据科学任务。但它并不适用于描述性分析的数据科学任务。

即使是那些预测性的数据科学任务,也不仅仅只包含预测。我们对自动化机器学习与自动化数据科学会产生了混淆,对此,数据科学家Sandro Saitta认为:

这种误解来源于我们对完整的数据科学过程(例如:CRISP-DM)、准备数据的子过程(特征提取等等)以及建模(建模也被我们我们称为机器学习)的混淆。

在读到关于自动化数据科学与数据科学竞赛的工具新闻的时候,没有行业经验的人会很困惑,他们可能认为数据科学就是建模,这样就可以完全自动化运行了。

他是完全正确的,不仅仅是词义的问题。假如你想要对机器学习与数据科学有一个更加清晰的认识,那就读读这个。

此外,数据科学家、自动化机器学习的领军人物Randy Olson认为我们要想得到高效的机器学习设计方案,我们必须做到以下几点:

  • 始终调整我们模型的超参数
  • 始终尝试不同的模型
  • 始终对我们的数据进行大量的特征探索

假如我们将以上所说的东西都考虑进去,那么我们可以认为自动化机器学习的任务是选择算法、超参调整、迭代建模以及模型评价,这样的话,我们就可以以此来定义自动化机器学习了。自动化机器学习的定义是多种多样的(对比一下数据科学,当你向十个人询问什么是数据科学的时候,你会得到是十一种不同的回答。),但是我们却可以说,这开了个好头儿。

我们为什么需要它?

尽管我们知道了自动化机器学习的概念,自动化机器学习对我们可能有好处,但是我们仍需要知道为什么机器学习会很难。

AI研究人员、斯坦福大学博士生S. Zayd Enam最近写了一篇奇特的博客,博客的标题是《为什么机器学习这么“硬”?》,在这篇文章中,他写道(注意粗体字):

机器学习仍然是相对很困难的问题。毫无疑问,通过研究来推进机器学习算法的进步会很困难。这需要创造力、实验以及坚持。由于现成的算法、模型可以很好的为你提供服务,这就阻碍了机器学习的发展。

请注意,尽管Enam主要提及的是机器学习的研究,但是他也提到了现成的算法在用例中的实现(见粗体字)。

紧接着Enam详细阐述了机器学习的难题,并着重叙述了算法的特性(见粗体字):

机器学习的难题之一就是建立直觉。建立直觉的意思是采用某种工具来应对问题。这就需要知道可用的算法、模型、风险权衡以及每一个限制条件。

……

困难在于机器学习基本上很难进行调试。对于机器学习来说,调试会在两种情况下发生:1)你的算法不起作用了;2)你的算法效用不是很好。……算法一开始就起作用的情况很少,因此我们大部分时间都在用来创建算法。

Enam紧接着从算法研究层面阐述了框架问题。再次强调下,他所说的是应用算法。假如一个算法不起作用,或者性能不是很好,那么我们就需要对算法进行迭代,即再选择与再定义。这就产生了自动化,因此也就有了自动化算法。

我以前对于自动化机器学习算法本质的理解是这样的:

正如Sebastian

Raschka描述的那样,假如说计算机程序关于自动化的,那么机器学习可以看做是“关于自动化的自动化”。那么自动化机器学习就是关于自动化的自动化的自动化。程序通过管理重复的任务来减轻我们的压力;机器学习帮助计算机如何最好的处理这些重复的任务;自动化机器学习帮助计算机学习如何优化上面的结果。

这种思想很有用处;尽管我们之前会担心调参数、调超参数。自动化机器学习通过尝试一些列不同的方法,最终会采用最好的方式来调参,从而得到最优的结果。

自动化机器学的理论基础来源于这个想法:假如我们必须创建海量的机器学习模型、使用大量的算法、使用不同的超参数配置,那么我们就可以使用自动化的方式进行建模。同时也可以比较性能与准确度。

很简单,对不对?

对自动化机器学习工具进行比较

现在我们知道了自动化机器学习到底是什么了,以及我们要用它的原因。那我们我们该如何才能创造出一个自动化机器学习模型来?接下来要讲解的是两个自动机器学习工具包的概述,以及二者之间比较。这些工具包是使用python编写而成的。这两个工具使用不同的方式来达到相同的目的,也就是是机器学习过程的自动化。

Auto-sklearn

Auto-sklearn是自动化机器学习的工具包,我们用它来替换scikit-learn中的estimator。在最近由KDnuggets举办的机器学习博客大赛中,它取得了冠军头衔。

auto-sklearn使机器学习的使用者可以很轻松的进行算法选择以及超参数的调整。它的优势就是在于使用贝叶斯优化、元数据学习以及集合建设。要想了解更多关于auto-sklearn的背后技术,你可以阅读这篇2015年发表在NIPS论文。

上面的信息是摘自项目的文档说明,Auto-sklearn可以通过贝叶斯优化方式将超参数最优化,就是通过不断迭代以下几个步骤:

  1. 创建一个概率模型,来找到超参数设置与机器学习的表现之间的关系
  2. 使用这个模型来挑选出有用的超参数设置,通过权衡探索与开发,进而继续尝试。探索指的是探索模型的未知领域;开发指的是重点从已知的空间中找到表现良好的部分。
  3. 设置好超参数,然后运行机器学习算法。

下面将进一步阐明这个过程是如何进行的:

这个过程可以概括为联合选择算法、预处理方法以及超参数。具体如下:分类/回归的选择、预处理方法是最高优先级、分类超参数、被选择方法的超参数会被激活。我们将使用贝叶斯优化方法来搜索组合空间。贝叶斯优化方法适用于处理高维条件空间。我们使用SMAC,SMAC是的基础是随机森林,它是解决这类问题的最好方式。

就实用性而言,由于Auto-sklearn直接替代scikit-learn的estimator,因此scikt-learn需要安装这个功能,我们才能利用到这个优势。Auto-sklearn同样也支持在分布式文件系统中进行并行计算,同时它也可以利用scikit-learn模型的持续特性。要想高效的使用Auto-sklearn替代estimator只需要4行代码就可以了。作者这样写道:

有一个更具鲁棒性的示例(该示例使用了Auto-sklearn,并以MNIST数据集作为数据来源),如下:

需要注意的是,Auto-sklearn是ChaLearn AutoML challenge竞赛中,auto单元与tweakathon tracks单元的双料冠军。

最近Kdnuggets举办了自动化数据科学与机器学习博客大赛,Auto-sklearn研发团队提交的一篇博文在本次大赛中获奖,你可以点击这里进行阅读,同样也可以点击这里来阅读对他们的的采访。Auto-sklearn是由Freiburg大学研发出来的。

Auto-sklearn已经被托管到GitHub上了,你可以找到相关文档以及API。

TPOT

TPOT被认为是“你的数据科学助手”(要注意,不是“你的数据科学替代品”)。它是一个Python的工具。通过使用“遗传编程来自动的创建与优化机器学习管道”。TPOT与Auto-sklearn类似,与scikit-learn协同工作。就像是scikit-learn的包装器。

在本文中,我们曾提到过,这两个工具使用不同的方式,达到相似的目标。二者都是开源的,都是使用python编写而成的,都宣称通过使用自动化机器学习的方式简化了机器学习的过程。然而Auto-sklearn使用的是贝叶斯优化,TPOT使用的却是遗传编程。

尽管两者使用的方法不同,但是二者的最终结果却是相同的:自动化超参数选择,用一系列算进行建模,对大量特征的探索,这些都导致了迭代建模以及模型进化。

TPOT的真正好处之一就是使用scikit-learn的管道,产生可以准备运行的、独立的Python代码。这个代码代表着所有备选模型中表现最好的模型。我们就可以修改与审查这份代码。这份代码并不会是最终的模型,而是可以当做是我们寻找最优模型的有效起点。

下面是一个关于TPOT的例子,该案例使用MNIST数据集:

这次运行的结果正确率达到了98%,同时pyhton代码也就是我们所说的管道也会被导入到tpot-mnist-pipeline.py文件当中,如下所示:

我们可以在GitHub上找到TPOT的源代码,以及说明文档。

TPOT的领军人物Randy Olson在Kdnuggets上写过一篇关于TPOT 与AutoML(自动化机器学习)的文章,你可以点击这里找到该文章。也会在这里找到对Randy的采访。

TPOT是由宾夕法尼亚大学生物医学信息学研究所研究出来的,由NIH资助。

当然,自动化机器学习不仅仅只有这两个工具。还有其他的工具,像Hyperopt
(Hyperopt-sklearn)、
Auto-WEKA,以及Spearmint等等。我打赌在未来几年,大量相关的额外项目将会出现,这些项目中既会包含研究项目,也会包含工业项目。

自动化机器学习的未来

自动化机器学习的未来在哪里?

我最近公开地进行过以下陈述(根据我的文章《2017年机器学习预测》):

自动化机器学习将变成重要的技术。在外人看来,它可能不如深度神经网络。但是自动化机器学习对于机器学习、人工智能以及数据科学都产生了深远的影响。这种影响极有可能在2017年显示出来。

在同一篇文章当中,Randy Olson也表达了在2017年他对自动化机器学习的期望。此外Randy在最近的采访中有更加详细地阐述了他的预测:

在不久的将来,我认为自动化机器学习将会替代机器学习的建模过程:一旦数据集拥有相对清晰的格式,那么自动化机器学习将会比99%的人类更快地设计与优化机器学习管道。

……

我可以很确定地认为自动化机器学习系统将会成为机器学习的主流。

但是自动化机器学习是否会替代数据科学家?Randy继续说道:

我并不认为自动化机器学习的目标是为了替代数据科学家,就像是智能代码自动完成工具的目标并不是来替代程序员一样。相反,对于我来说,自动化机器学习的的目标是为了减轻数据科学家的压力,使他们不必将大量的精力耗费在重复与耗时的任务上(比如说机器学习的管道设计与超参数的最优化)。这样他们就可以将时间投入到无法进行自动化的任务当中去。

这种思想十分好。auto-sklearn的开发人员也同样认同他的观点:

我们发展自动化机器学习方法是为了向数据科学家提供帮助,而不是代替他们。这些方法使数据科学家摆脱了讨厌复杂的任务(比如说超参数优化),机器可以很好地解决这些任务。然而数据分析与结论获取的工作仍然需要人类专家来完成。在未来,理解应用程序领域的数据科学家仍然极其的重要。

这听起来十分的鼓舞人心:数据科学家不会被大量替换,自动化机器学习是为了帮助他们更好的工作。这并不是说自动化机器学习已经很完美了。在我们提到自动机器学习是否还有进步空间的时候,Auto-sklearn团队如是说:

尽管有一些方法可以用来调试机器学习管道的超参数,但是目前为止很少有工作能发现新管道。Auto-sklearn以固定的顺序使用一系列的预定义的预处理器与分类器。假如一个方法对于找到新管道很有效,那么这个方法将会很有用处。当然,人们可以继续这种思路,并尝试自动寻找新的算法。最近,已经有几篇论文这样做了。比如说Learning
to learn by gradient descent by gradient
descent.(雷锋网此前也有提及这篇论文,它获得了RedditML小组评选的“年度最佳论文标题奖”)

自动化机器学习的发展方向在哪里?很难说清楚。毋庸置疑的是,迟早会出现。尽管不是所有的数据科学家都熟知自动化机器学习,但是熟知自动化机器学习将会使你获益匪浅。别忘了,假如你能够在大多数人意识到之前就去学习自动化机器学习,驾驭科技浪潮,你就不会因未来的不确定性而担心你的工作了。你对于这些技术的驾驭利用将会帮助你在未来更好的工作。而我也再想不出比这个更好的理由来学习自动化机器学习了。

本文作者:翻山

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-25 09:40:18

自动化机器学习将成为下一个AI研究主流?听听数据科学家怎么说的相关文章

下一个十年,大数据和人工智能将重塑这三大产业!

楔子:我们生活在一个充满颠覆和变革的时代,而这并不是件坏事. 产业将会转型,大企业面临衰亡. 为了给消费者提供更好.更快.更低价的体验,企业家们逐步对低效的企业.产品及服务进行优化及重塑,旧有的系统将会瓦解. 华盛顿大学奥林商学院的研究表明,在未来十年内,当今世界500强企业中将有40%不复存在. 在接下来的十年里,随着大数据及人工智能的崛起,颠覆医疗.金融及保险这三个行业的时机已经成熟.本文将就此进行简要分析. 当然,大数据和人工智能会对各行各业多多少少都造成冲击,而对这三个行业来说,情况尤甚

[清华+湛庐]数据风暴中,谁将成为下一个产业颠覆者?

在过去10年中,科技和互联网领域出现了一股正在涌动的暗流,这股力量既是新科技的促成者,又是科技进步的潜在障碍,它就是数据增长. 如果你的工作与信息技术有关,那你或许还会更进一步发现,越来越多的工作内容正与日益增长的数据相关.不管你从事什么样的职业,世界都正在被数据洪流所淹没--我们越是利用和依赖数据,生成的数据就越多. 你准备好被击垮了吗? 如果你想在这场对我们这个世界中正在发生的数据大爆发现象有更好的了解. 大趋势正推动着在线数据的增长及其重要性的增加.这些趋势汇聚在一起并相互作用,使得信息管

Facebook Yann LeCun一小时演讲: AI 研究的下一站是无监督学习(附完整视频)

作为 Facebook 人工智能部门主管, Yann LeCun 是 AI 领域成绩斐然的大牛,也是行业内最有影响力的专家之一. 近日,LeCun在卡内基梅隆大学机器人研究所进行了一场 AI 技术核心问题与发展前景的演讲.他在演讲中提到三点干货: 1. 无监督学习代表了 AI 技术的未来. 2. 当前 AI 应用的热点集中在卷积神经网络.  3. 用模拟器提高无监督学习的效率是大势所趋. 演讲完整视频如下.该视频长 75 分钟,并包含大量专业术语,因此雷锋网节选关键内容做了视频摘要,以供读者浏览

AI 金融是下一个风口还是唬人的万金油?

人工智能在金融领域的影响越来越大 自动化和人工智能极大地改变了金融交易和投资市场,但是随之而来的挑战也越来越多. 许多科学家和未来学家一致认为,人工智能和自动化对社会的影响是难以预料的.理论上来说,它的源头正在自发地改变整个社会.这就是所谓的奇异点原理--未来将要发生一件不可避免的事件,技术发展会在很短的时间内产生极大而接近于无限的进步.当此转折点来临的时候,旧的社会模式将一去不复返,新的规则开始主宰这个世界.而后人类时代的智能和技术我们根本无法理解,就像金鱼无法理解人类的文明一样. 尽管许多人

NLP成下一个风口?「来也」完成千万美金 B 轮融资,推出战略级AI产品“吾来”

12月21日,专注打造智能助理平台的人工智能公司助理来也宣布完成千万美元B轮融资,并推出针对企业客户的战略级新产品「吾来」,提供行业智能助理的全套解决方案.本轮投资由双湖资本领投,早期投资方光速中国和红杉资本继续跟投. 随着B轮融资一并发布的是「来也」面向垂直行业.To B的智能服务解决方案「吾来」. 助理来也联合创始人兼CEO汪冠春博士表示:"助理来也成立两年来,一直在努力推进智能助理的技术研发和产品落地,新一轮融资后会继续加大在基础技术.产品研发.市场开拓和人才招募上的投入,并在AI和产业结

这七家公司合伙的“AI研究院”:不搞学术,只为拿到AI下一个十年的门票

AI,一个1956年从实验室蹦出来的"研究",在历经60年技术的累积与沉淀,AI的潜能终于开始彻底爆发.AI正在向各个领域渗透,包罗万象,几乎变成整个世界都要面对的机遇和挑战. 人工智能到底有多火爆,我们可以先看一些数字:过去一年在AI领域,全球共统计出近百亿美元1200多次的投资,2025年人工智能可通过节省成本和带来新盈利机会创造大约每年340亿至430亿美元的价值.人工智能将催生数个千亿美元甚至万亿美元规模的产业. 这是一组出现在由七家公司合伙发起的"万象人工智能研究院

战胜柯洁后,AI在悄悄潜入人类下一个智慧堡垒

近日,在 QCon北京2017上,来自阿里巴巴认知计算实验室的技术专家龙海涛(花名德衡)发表了题为<星际争霸和AI>的专题演讲.<星际争霸>一直是游戏玩家心目中即时战略类的经典之作,历时十多年而不衰. 而如今它更成为深度强化学习.人工智能算法研究的一个主要平台和工具.因为其蕴含了多智能体协作.多任务学习.宏观策略规划等复杂问题,一旦取得部分突破和进展,对商业和社会发展都会带来极大影响.如国外的 DeepMind.Facebook 等公司相继投入大量人力基于它进行通用人工智能的研究.

迁移学习——机器学习的下一个前沿阵地

我们越来越善于训练深度神经网络,从大量的标记数据中学习到从输入到输出的非常准确的映射,无论它们是图像,句子,标签预测等. 但,我们的模型所缺乏的是能够概括出不同于训练过程中遇到的情况.当你将模型应用于精心构建的数据集,它表现的总是不错.但,现实世界是混乱的,包含无数的新情景,其中许多是你的模型在训练期间没有遇到过的.将知识迁移到新情景的能力通常被称为迁移学习,这是我们将在本文的其余部分讨论的内容. 在本篇博文中,我将首先将转换学习与机器学习的最普遍和成功的范例 - 监督式学习进行对比.随后,我会

大数据是电子地图的基础,AI成为下一个技术风口

每到春运之时,人口的迁入和迁出就成了城市的主旋律.昨日,高德地图发布了2017年春运大数据.其中,广东省的5座城市在人口迁出比例排名中占据前5位,而安徽省的4座城市名列人口迁入比例排名前10位,成为返乡大省. 高德地图能够得到关于人口迁徙的大数据,是基于平时对用户数据的收集与累积.其实不止是高德地图,目前的电子地图全都离不开大数据的支撑,可以说没有大数据就没有电子地图. 电子地图的原理是什么?支撑电子地图的大数据究竟是如何得来的?采取怎样的方式才能收集到?这些问题都值得我们思索一番. 现在,人们