机器学习的本质就是数理统计?答案可能没这么简单

可能许多刚刚接触 AI 的新人们都产生过类似这样的疑问:机器学习和数理统计,究竟有什么本质区别?不都是玩数据的么。

如果从传统意义上的数据分析师的观点来说,这个问题的答案很简单,无非是下面这两点:

● 机器学习本质上是一种算法,这种算法由数据分析习得,而且不依赖于规则导向的程序设计;

● 统计建模则是以数据为基础,利用数学方程式来探究变量变化规律的一套规范化流程。

总结来说,机器学习的关键词是预测、监督学习和非监督学习等。而数理统计是关于抽样、统计和假设检验的科学。

这个答案看起来似乎无懈可击,但其实机器学习和数理统计之间的关系远没有这么简单。

  相同点

按照数理统计学的大师级人物 Larry Wasserman 的说法,实际上“这两门学科(机器学习和数理统计)关心的是同一件事,即我们能从数据中学到什么?”

根据他在个人博客中的总结,以下这些在数理统计和机器学习中的常见术语实际上具有相同的含义。

除此之外,另一位学术界的专家,斯坦福大学著名统计学和机器学习大师 Robert Tibshirani 也一直将机器学习称为“美化过的统计学”(glorified statistics)。

实际上,发展到今天,机器学习和统计学技术都已经是模式识别、知识发现和数据挖掘等领域的常用技术。虽然根据 SAS 于 2014 年发布的统计结果(如下图),机器学习和数理统计之间的关系是相互独立的,但实际上在近两年他们之间的界限已经已经越来越模糊,甚至有相互融合的趋势。

这样看来,机器学习和数理统计的确具有相同的目标:从数据中学习。他们的核心都是探讨如何从数据中提取人们需要的信息或规律。但是,这两门学科在研究方法上却有本质的区别。

  不同点

首先,机器学习是一个比较新的领域,是计算机科学与人工智能的一个分支,它更多地关心如何构建一个系统去分析数据,而不是针对特定的程序化指令。

而统计建模则完全是数学的分支。虽然现在廉价的计算能力和海量的可用数据的支持下,数据科学家们已经可以通过数据分析来训练计算机的学习能力,即机器学习。但统计建模相对机器学习而言却拥有悠久得多的历史,实际上它早在计算机被发明之前就存在了。

另一方面,机器学习更多地强调优化和性能,而统计学则更注重推导。

关于这一点,我们或许可以从下面这两段分别来自统计学家和机器学习研究人员针对同一数据模型的描述上得到更深的体会。

● 机器学习研究人员:在给定 a、b 和 c 的前提下,该模型准确预测出结果 Y 的概率达到了 85%。

● 统计学家:在给定 a、b 和 c 的前提下,该模型准确预测出结果 Y 的概率达到了 85%;而且我有九成的把握你也会得到与此相同的结论。

第三,机器学习并不需要对有关变量之间的潜在关系提出先验假设。研究人员只需要将所有的可用数据导入模型,等待算法的分析并输出其中的潜在规律,然后将这一规律应用于新数据进行预测就可以了。对于研究人员来说,机器学习就像一个黑盒子,你只需要会用,但并不清楚其中的具体实现。机器学习通常应用于高维度的数据集,你的可用数据越多,预测通常就越准确。

相比之下,统计学则必须了解数据的收集方式,估计量(包括p值和无偏估计)的统计特征,被研究人群的潜在分布规律,以及多次试验的期望参数的类型。研究人员需要非常清楚自己在做什么,并提出具有预测能力的参数。而且统计建模通常用于较低维度的数据集。

  结论

总结来说,我们可以认为机器学习和统计建模是预测建模领域的两个不同分支。这两者之间的差距在过去的 10 年中正在不断缩小,而且它们之间存在许多相互学习和借鉴的地方。未来,它们之间的联系将会更加紧密。

对开发者而言,充分了解机器学习和统计建模之间的差异和联系,将有助于他们扩大自己的知识面,甚至将专业领域之外的分析方法引入研发流程之中。这一点也正是数据科学(data science)本身的核心理念,即弥合机器学习和统计建模之间的区别,让二者逐渐趋于归一化。最后需要肯定的是,这两门以数据驱动的学科之间的协作和交流越频繁,我们的生活就会变得越好。

本文作者:恒亮

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-03 05:19:32

机器学习的本质就是数理统计?答案可能没这么简单的相关文章

课后习题答案-求概率论与数理统计答案!

问题描述 求概率论与数理统计答案! 谁有中国农业出版社,张丽娜和李春兰主编的概率论与数理统计的答案,求共享 解决方案 这个百度一下 会有很多资源吧.你可以搜一下 PDF 版,网上会有的.

社区服务O2O淘金? 困难多没那么简单!

文/王利阳社区服务O2O是互联网"由虚落实"的又一次重大进步,再次一次让互联网改变了公民的生活.互联网衍生出的电商改变了公民的消费习惯,促进了零售业的变革,衍生出的O2O又在引领服务业的变革,而社区服务O2O则是在电商.O2O基础上的升级,进一步拓展了互联网在公民生活中发挥的作用.社区服务O2O大热,已经有非常多的参与者在积极的探索这一市场,笔者写过 两篇关于社区服务O2O的文章,<被忽视的社区服务O2O>和<社区服务O2O:一场蓄势待发的商业变革>,这二文算是

浅谈:网络营销其实没那么简单 也没那么难

中介交易 SEO诊断 淘宝客 云主机 技术大厅 中国互联网络信息中心(CNNIC)今年1月份发布了第33次<中国互联网络发展状况统计报告>,最近闲下来又仔细看了这份报告的一些数据.截至2013年12月,中国网民规模达6.18亿,互联网普及率为45.8%.而据1997年10月发布的<第一次中国互联网络发展状况调查统计报告>显示,当时我国上网用户人数为400万,网站数量仅1500个. 还记得那时,我每次上网都会用一个小笔记本记录各种网址. 如今,中国网站数量320万个,再也不是一个小小

搜索引擎优化之路没那么简单 切莫感觉良好

虽然做站六七年,学习SEO四五年,但互联网技术和搜索引擎规则变化很快,如果不随时跟进的话,往往就会被淘汰.本文将主要以我做站过程中的失败经验来提醒下当下的初级SEOer,以我为鉴,远离SEO. 先赋诗一首:半道出家莫优化,一知半解最可怕,他日百度更新时,满城尽指度娘骂. 早几年我刚开始做SEO的时候,那时候做优化还是比较容易的,关键词堆砌到满页面都是,密度越大往往排名越高,然后就是拼命的做外链,百度的各个平台如百度贴吧.百度知道.百度百科等,链接真的是可以随便发,就这两招基本上就可以行走天下.我

VCOTTON维棉:丝袜没那么简单

通过京东.官网.淘宝的三轮首发,维棉实现了新品丝袜全网70%的销售目标,据悉现已完成库存的补充,并在原有基础上做出更新调整,旨在推出更多更好的贴身服务. 之前的全网首发,看似波澜不惊,但从销售情况 来看可谓是大获成功.搭载京东与淘宝两大商城,将全 新的法式锦纶与莱卡纤维推向国内丝袜市场,既解决了传统丝袜存在的勾丝.硬直.掉裆等关键问题,又创新的引入丝袜自湿性与透气性,在打扮高贵性感的同时带来舒适的腿部享受. 如果丝袜只是包裹腿部的一层丝线, 那么它也不会被发明出来解放所有女性的夏天,如果丝袜只是

生的互动死的营销 微营销看上去很美没那么简单

中介交易 SEO诊断 淘宝客 云主机 技术大厅 微博,已经迎来四岁的生日,近期,也不断听到众人唱衰,而跟微博联姻不久的阿里,也在自己手机端推起了微淘,最近最火的微营销当属微信.业界基于微营销的话题经久不衰,那我们来看看这些让我们爱的死去活来的微营销吧. 微博.微信.微淘到底是什么? 今年6月5日,在北京的一次公开活动上,微信产品总监曾鸣公布了腾讯内部对公众平台的定位:信息流转.连接用户与服务.实现沟通互动.而且也首次更明确的表态:微信不是营销平台. 从微信官方公开表态中我们不难看出,微信营销对于

电商下乡,没那么简单

电商下乡是最近非常火爆的话题,电商在一二线城市深耕细作了这么多年,可以说市场都挖掘得差不多了.而当京东和阿里都将触角往农村延伸时,人们才突发发现还有一个近9亿人口的市场仍未"触电".国家普及互联网也普及了那么多年,事实上农村的人对电商也确实不是特别陌生,似乎没有比当下更好的切入农村市场的时机了,但真的如此吗? 笔者从小在农村生长,近期又正好因为研究课题走访了广东省全省近20个不同县市乡镇.就目前了解到的情况来看,电商下乡没那么简单.目前巨头们的动作只能认为先作一些铺垫,农村电商想要真正

网络写手:赚钱没那么简单

据统计,中国网民数量已超过5.1亿,2011年有1.94亿人阅读网络小说.数十万业余作家正通过在网上发表系列小说而获得不错的收入,其中年收入过百万的约有50人.不过,这些网络写手也坦言,靠点击率定收入赚钱并非易事. 近日,网上流传的"揭秘网络写手财富生产线",让烟台籍网络写手"骷髅精灵"成为关注焦点.烟台高校也有不少网络写手,但他们告诉记者码字赚钱并没那么简单,多数网络写手收入寥寥甚至颗粒无收. 网络写手年入百万开豪车住别墅 烟台籍的网络写手"骷髅精灵&q

飞游世界没那么简单,一个机长的飞机梦

中国民航网 通讯员冯明远 报道:2012年12月7日6时30分,乌鲁木齐依然漆黑的天空飘起零星的雪花.南航新疆分公司年轻的机长教员朱晓东像往常一样,提前于航班起飞时间2个小时出了门.今天是第19个国际民航日,他将要执行CZ6981/2航班任务.这个具有特殊纪念意义的日子,唤起了他飞游世界的年轻梦想和10年安全飞行经历的诸多感触. 飞游世界没那么简单 制服帽.皮手套.羊绒大衣--尽管朱晓东"全副武装",但似乎还是不能抵御乌鲁木齐清晨零下15摄氏度的严寒.而今天,他将有整整12个小时待在驾