机器学习理论研究方法探讨

本文译自:http://www.alexirpan.com/2016/07/17/ml-sleep.html,原文标题《The Machine Learning Casino》,译文供您参考。

一、机器学习理论研究

机器学习是一种能使计算机半自主地对数据进行分析,并从中学习经验的算法。

机器学习理论的研究听上去就好像做这么一件事,让我们的研究人员去深刻探索,提高计算机学习数据集的效率的方法。

事实上,机器学习理论的研究可以在我们的生活的每时每刻找到影子。就好像你在不断的进行一场赌博,只不过你的筹码是你的时间。你把你的时间花费在了一些有启发性的事物上去,而这场赌博的最终大奖看上去就是未来光明的前途。当然,即使你付出了大量的时间,你也可能遇到你无法想象而又无法理解的失败。

二、机器学习中理论与实践的关系

尽管机器学习是建立在统计学的基础之上的,但事实上机器学习也可以被更多的说成是一门实践性的科学。

然而谈到到实践性,这并不意味着这是一门轻视基础理论的学科。在机器学习里会遇到众多理论问题。例如,赌博机问题,凸优化与非凸优化,图形建模,以及信息理论的问题,当中涉及到了许多不同的学科领域。如果你要你深究机器学习,你可以在这些问题里花花时间。

这里面内容太深太广,对于普通的开发者来说,学完全部的内容并不是一件容易的事情。现实就是,人们都希望自己的算法是有保障的,但是不是每个人都愿意花时间去深究为什么他们的算法是有保障的。

好吧,在当下在APP开发火爆的环境下,人工智能的宣传满天飞。但是人们往往首先关心的只是最终的产品,然后在开发进度中逐渐才会关注基础理论的重要性。一般的开发者往往都是会从一些有启发的事情中获得灵感,通常来说,这些有启发的算法能对既已出现的情况做出相应的反应,但是这些算法仅停留在面向过程的层面,基本没有更深的内涵。

三、实验方法

那么我们想想,我们到底是怎样发现这些有启发性的事物的呢?这里介绍一个方法:

一、提出假设。

二、设计一个实验来检验这一假设。

三、进行实验并分析结果。

四、细化假设并改进实验设计。

五、重复以上流程,直到最终得出结论

在机器学习的领域,提出假设是有前途的算法,进行实验便能检验这些算法的正确性。

重点是什么?就是做做实验,直到最后你的理论被最终证明有效。

好,回过来,接下来我和大家分享一些有用的东西。



四、机器学习中的理论是否已经非常成熟了呢

当前的这门艺术的状态还是概率性的并且高度个性化的。经验上来说,概率化的方法现在已经能很好的在大数据领域等领域应用。

个性化意味着你能尝试调试不同参数并观察他们之间的差别,你有没有尝试调整过超参数?有没有尝试过清洗你的数据?或者使用一种不同的最优算法?让你的模型变得更简洁?或者说让你的模型更加复杂化?玩过Batch Normaliztion算法吗?校正过非线性失真的图像吗?我们希望能探索出一些新的方法来打破常规来解决一些实际问题。然而不幸的是,我们目前的工作还没能力达到那个程度。神经网络确实是非常神奇的,但是你一旦用它玩完那些简单的问题后,你会发现其实还有很多问题还不能解决。

机器学习中会设置一些特征参数,而且这些我们也不会说哪些参数是失败参数。这样的事可能是在其他学科中不会出现的。但是在机器学习中,事情就是这样。而且有时,完全相同的参数设定也不会得到相同的结果。你可以认为我们能做的更好,但是难以重现结果确实是一个问题。

对每一个欣赏机器证明艺术的人来说,这也是机器学习中最气死人的地方。在我们进行超参调优的时候,我们往往并没有带着专门去探索其理论基础的学习动机。但这却是你们必须做的事情,机器学习之美和现实应用有时会脱节。这里有一个段子,是一个计算机视觉教授和他的学生说的:


学生:这理论没有什么实际应用。

教授:真的没有用吗,就算真的没有什么实际应用,理论本身就已经是艺术。

学生:你说的我都懂,理论很高端,但却在实际生活中没有用。甚至连Lenna图像也不能很好的处理。

教授:(半开玩笑的说)也许我们处理一百万个图像,可能在这个过程中,我们就会发现机器学习的作用。

学生:如果连Lenna都不能处理,就更别说无数个Lenna了。

教授:哈哈哈,我也这么认为,真是倒霉啊。

我能体会他们的苦衷。

在训练了足够的机器学习模型后,你就找到问题的关键,能识别常见的无效模式。当你能正确进行模式识别,你便能开始总结出新的识别方法。然而,这种识别没法达到保证百分百成功的程度。我喜欢开玩笑的说,有一天理论学家会找到比纯粹靠经验的好方法。但是我不认为在当下能很快实现。因为这些理论上的东西真的比较难。

理论上,在监督机器学习中,已经发现了“No Free Lunch”定律。我如果这么说可能会显得不太正式,但是确实没有哪一种算法能在每一个可能的问题里打败另外一种算法。换句话说,永远不会有一个算法统治所有其他算法。当然,如果有人能证伪这一点,那当然是最好不过的事了。



五、如何在实验中获取有价值的结论

我依旧没有解释为什么机器学习的研究能应用到我们的生活当中。

我认为我已经迂回地说过了。机器学习实验的是随机性的。即使是这个领域内的大牛也不能掠过超参调优的过程。

这就让这个领域让人感觉像一个巨大的赌场,你拉动了水果机的拉杆,希望自己能中奖。有的时候,你确实能中彩,但是也不会中奖。 或许凑巧的是,有人告诉你玩的这台水果机已经十年没有开奖了,你也许应该尝试新的水果机。机器学习就好像民间传说,这里面的窍门和门道人们一代又一代相传。

我们理解了许多知识,但是水果机就是是水果机,这里面不可避免的随机性问题随随便便就能毁了你美好的一天。或者有更糟的情况,这样的“水果机”也许就隐藏在你的工作里,你的股票基金里,你的前途里。

在这样的机器学习的游戏里,要么你很幸运,要么你在尝试了许多次后你必将获得幸运。这里面唯一保证成功的途经就是做这个后者。

那就意味着实验,你需要做海量的实验。其实在进行实验的这段时间你也不需要做什么事情。你在你准备休息的时候运行实验。比如说,你准备去吃中饭。那就开始在计算机上运行你的实验吧。看看你吃完后会不会有什么新的实验结果。又或者说你准备出去玩,那你或许可以整夜的运行你的实验,在第二天再去查看你的实验结果。再比如,你不想在这个周末工作?那好吧,你的电脑可不会介意在周末上班的。我们写好代码,我们便能在无人值守的情况下进行实验,这真的是非常的棒。只要你的代码是有效的,如果你的代码出现了问题,那么好吧你需要修复出现的bug。除去修复代码的时间,你可以每时每刻都在运行你的实验。

计算机的工作就像是一个工作狂一样。你也不需要立即修改你的代码,就像你不需要一次把所有的筹码都买满水果机的下注。我很确信随着时间的增长,你最终会变得十分幸运,即使你错过了一两天,这也不会影响最终的结果。

如果有一种方法能让机器算法能有效。我也不知道会不会真的有这样的算法,我在心里还曾想过那么一秒,我如果在这个满月下献祭一只山羊,会不会就能让这项工作有效了。如果机器学习的算法真的这么简单就能有效了,我想应该有人会想出无数的方法想着怎么去献祭山羊了。

不过好事不会像山羊献祭这么简单的,因我也不想做这种没有什么意义的事情。

六、结语

在这里,你可能会想知道,为什么我有时会对机器学习感到有些厌烦。

事实上,所有的废话也会有一定的价值,实验的运行中有许多令人激动的事情在不断发生,因此,我对机器学习中出现的问题也越来越能容忍,我对此也感到习以为常了。和理论相比,运行试验就是浪费时间,但这是令人激动的垃圾时间。

我认识的计算机理论科学的朋友们可能会认为我已经疯了,我正做的这些实验简直让我近乎疯狂!哦,好吧还有什么新理论吗。

我们的这些工作,处于获取真理的边缘。如果这样繁复的工作就是我们必须要付出的代价,我必然会毫不犹豫地会选择付出。 

“标枪远远领先于她,并移动的更快。殖民者还有很多许多时间来进行活动。当她到达天狼星的时候也许会在那儿发生什么,也许会十分友好。就算真的遇到不友好的事情,她也能到时候再随机应变。”

——摘自小说《RA》


作者:alexirpan    译者:语林

更多详细内容,请您点击这里:阅读原文

时间: 2024-11-05 16:30:35

机器学习理论研究方法探讨的相关文章

简单自学机器学习理论——正则化和偏置方差的权衡 (Part III )

首发地址:https://yq.aliyun.com/articles/67170 本文由北邮@爱可可-爱生活 老师推荐,阿里云组织翻译. 以下为译文 机器学习理论-Part3 正则化和偏置方差的权衡 在第一部分探讨了统计模型潜在的机器学习问题,并用它公式化获得最小泛化误差这一问题:在第二部分通过建立关于难懂的泛化误差的理论去得到实际能够估计得到的经验误差,最后的结果是:   通过假设有固定的数据集,可以简化该界限,对于具体的置信度有: 本节基于该简化理论结果,开始针对解决机器学习问题的过程总结

简单自学机器学习理论—— 泛化界限 (Part II )

首发地址:https://yq.aliyun.com/articles/67168 本文由北邮@爱可可-爱生活 老师推荐,阿里云组织翻译. 以下为译文 机器学习理论 part II- 泛化界限(第I部分内容点此:第III部分内容点此) 上节总结到最小化经验风险不是学习问题的解决方案,并且判断学习问题可解的条件是求: 在本节中将深度调查研究该概率,看其是否可以真的很小. 独立同分布 为了使理论分析向前发展,作出一些假设以简化遇到的情况,并能使用从假设得到的理论推理出实际情况. 我们对学习问题作出的

独家丨2017全国深度学习技术应用大会回顾:传统的AI研究方法,在DL时代该如何变革?

雷锋网(公众号:雷锋网)按:2016年无疑是深度学习最为火热的一年,深度学习在语音.图像.自然语言处理等领域取得非常突出的成果,成了最引人注目的技术热点之一.雷锋网也报道过多次关于Google.Facebook.微软.百度在内的各大技术巨头都在不遗余力地推进深度学习的研发和应用. 2017年深度学习的势头依旧迅猛,并以更快的速度渗透在各个行业当中,对世界产生深远影响. 深度学习不但使得机器学习能够实现众多的应用,而且拓展了人工智能的领域范围,并使得机器辅助功能都变为可能.其应用领域正在加速渗透到

知乎张瑞: 浅析机器学习理论与实践 | 业界对话

张瑞,研究生毕业于北京邮电大学,毕业后一直从事搜索引擎及自然语言处理方向的研发工作.曾就职于百度及豌豆荚.现任知乎机器学习团队负责人. 特约记者丨杨润琦(南京大学),刘冲(北京邮电大学) 杨润琦:能否和我们介绍一下知乎的机器学习团队?目前主要负责哪些方面的工作和任务呢? 张瑞:我们团队是一个横向的功能团队,也就是说整个知乎平台上用到的机器学习场景都会交给我们团队负责,也包括建设一套完整的机器学习栈.我们将所有的应用场景分为两大模块,六大方向.两大模块分别是基础数据和基础技术,另一个是和业务相关的

深度学习理论研究已进入瓶颈期?看看李飞飞们怎么说

AI圈推特红人,Keras框架的作者François Chollet又搞大新闻了!近日François Chollet在推特上发推称:"深度学习研究已经进入了瓶颈期.将深度学习应用于解决现实生活问题的应用正在迎来一个大爆发." 这条推特下很快获得了上千个赞.数百转发,以及一系列热烈讨论.从回复中看,不少回复者(尤其是产业界人士)认为,"深度学习进入平台期"的提法值得商榷,雷锋网节选了其中几条: Buzzfeed首席数据科学家.哥伦比亚大学客座助理教授Adam Kel

《用户至上:用户研究方法与实践》研究之前:先理解目标用户

研究之前:先理解目标用户 2.1 概述 当着手开展一个新项目时,你的第一要务通常是了解产品(如果已经存在)及其涉及的领域和目标用户.在项目初期尽可能多地理顺现有产品和其领域知识.竞争对手和客户至关重要,这会使你不必花费时间来创建已有的知识.你可以从一系列渠道获得这些重要的信息:试用自己的产品,聆听客户反馈,社会情感分析,日志文件和网络分析,与市场部门交流,竞品分析,或是从极客用户或合作伙伴获得反馈.此外,你需要评估现阶段对于用户的理解,并开始创建用户画像.这些信息将帮助你选择合适的用户研究方法来

《用户至上:用户研究方法与实践》用户体验入门

本节书摘来自华章出版社<用户至上:用户研究方法与实践>一书中的第1章,第1节,作者凯茜·巴克斯特(Kathy Baxter)[美] 凯瑟琳·卡里(Catherine Courage)凯莉·凯恩(Kelly Caine)更多章节内容可以访问"华章计算机"公众号查看. 用户体验入门 1.1 什么是用户体验 如果你开始阅读本书,说明你对用户体验(UX)这个领域有所了解或者有些许兴趣.用户体验从业者和学生往往来自不同的学科背景,例如计算机科学.心理学.市场营销专业.商科.人类学和理

简单自学机器学习理论——引言 (Part I )

本文由北邮@爱可可-爱生活 老师推荐,阿里云组织翻译. 以下为译文 机器学习理论--part I 前言 (第II部分内容点此:第III部分内容点此) 动机 大多数人在小的时候被魔术师以及魔术技巧所迷住,并想弄明白其中的奥秘.有些人会带着这份迷恋研究到更深处并学习魔术技巧,有些人会接受专业的训练,而其他人会继续平庸下去.我在年幼时也尝试过魔术技巧并沉迷于其中,然而后来学习的是另外一种魔术,称作计算机编程. 编程确实酷似魔法, 和魔术一样,自学的现象在计算机编程世界占了上风.在过去的两年计算机开发者

【独家】深入浅出话AI:定义和主要研究方法

直入主题,咱们该先给人工智能来个全面的定义,对吧? 但悲催的是这种清晰唯一的定义在人工智能研究圈里是不存在的!(不存在至少是因为理解和定义智能本身就是个正在进行时.) 人工智能的三种定义 我们确实有很多种方式来定义什么是人工智能.第一种,也是最常见的一种,从人工智能研究广受欢迎的成果的角度:大体上来讲,人工智能或者是"创造和研究具备智能行为的机器"(注意:"具备"是怎么解释都行),或者是"创造和研究可以思考的机器"(注意:什么样的"思考