每一位数据科学家都应掌握的理论是什么?

【导语】Jean-Nicholas Hould是就职于英特尔的数据科学家。针对热门议题——《检测真假数据科学家之二十问》,他认为,还有一问亦不可少,那就是:“什么是中心极限定理?它为什么重要?”你可能会心中暗喜:中心极限定理,我学过啊?可它为什么如此重要,你了然吗?善于考究的,请阅读原文,不爱折腾的,请看编译文章(80%+内容为译者独立编写)

真假数据科学家检验之二十问

早在2009年,Google首席经济学家Hal Varian就给出了一个非常著名的论断:“在未来10年,统计学家将是最性感的职业”。那个时候,大数据还没有热炒起来,因此,对于这个职业,很多人也就是“不明觉历”而已。

之后,大数据时代来临,千“数”万“树”梨花开,各种数据概念扑面而来。在2012 年,Babson商学院资深教授Thomas H. Davenport等人在文字上小做修饰,在《哈佛商业周刊》刊文指出,“在21 世纪,数据科学家是最性感的职业”(如图1所示)。在本质上,Davenport提出的“数据科学家”,基本等同于Varian所说的“统计学家”。

一时间,很多人都以“数据科学家”身份自居,粉墨登场于各种场所。

图1  商业周刊网站截图

于是,就有“好事者”(此处为褒义)不乐意了,说,那些自称数据科学家的人,来,来,来,先回答我20个问题再说,合格了,再说自己为数据科学家。于是,就有了业内非常有名的《检测真假数据科学家之二十问》,该文2016年1月发表于Kdnuggets网站,作者是Andrew Fogg,Import.io网站创始人。文章发表后,在当月的Kdnuggets阅读量,排行第一,可见引起的共鸣不小。

我们抽取20问其中的几问,让读者感受一下:

1.       
请解释一下正则化(regularization)是什么,它为什么非常有用?

2.       
请解释一下查准率(Precision)和查全率(recall)的概念。它们与ROC曲线有什么关系?

3.       
根本原因分析(root
cause analysis, RCA)是什么?

4.       
统计功效(statistical power)是什么?

5.       
请解释一下重采样(resampling)方法是什么,它为什么很有用?它又有什么局限性。

6.       
什么是选择性偏差(selection bias)?它为什么很重要,又该如何避免它?

7.       
如何使用极值理论、蒙特卡洛模拟或数理统计(或其它理论),来正确估计一个非常罕见事件的发生几率呢?

……

不能不说,这些问题涉及范围广泛而又不失犀利,一些“伪”数据科学家,在这些问题的“拷”问下,很快就会原形毕露,“两股战战,几欲先走”。

英特尔数据科学家Jean-Nicholas Hould觉得这20问,还不够给力!至少还得加一问:“什么是中心极限定理(CLT)?为什么它很重要?

这是每个数据科学家都应该懂的理论!为什么是这样?下面我们议议这个话题。

什么是中心极限定理(CLT)?

对数理统计知识有所了解的读者,可能会知道,在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,那么总的影响可以看作是服从正态分布的。中心极限定理,事实上,就是从数学上证明了这一现象。

为了说明中心极限定理的含义,假设研究对象为一个国家的啤酒饮客,现在我们就想弄明白一件非常简单的事儿:饮客的平均年龄是多少?很显然,直接解决这个问题,是非常困难的,因为我们不大可能有精力、有时间以将整个人口为研究对象,逐一去做问卷调查。

取代全国范围内的调查,更为合适的方法是,我们收集100啤酒饮客的数据,作为样本,通过这些样本,我们可以得出一个均值,然后据此推断全国啤酒饮客的平均年龄。对于第一组100位啤酒饮客,其均值年龄可能是35。下一组100位啤酒饮客,其均值可能是39。再下一组的均值可能是37。以此类推。当我们收集越来越多的样本均值时,这样均值点就构成了一个抽样分布(sampling distribution)。比如说,前面提到的35,39或37,就是这个分布中的三个观察点。

随着样本均值点收集的数量越来越多,那么这些均值形成的分布,大致可形成一个钟形曲线的,也就是说为正态分布,这就是所谓的中心极限定理的形象解释。

比较学术化中心极限定理点的描述是:设从均值为μ、方差为σ^2。(有限的)任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布,近似服从均值为μ、方差为σ^2/n
的正态分布。

针对这个定理,我们需要注意两点:(1)如果我们收集的样本数量足够大,样本的均值趋近于总体的均值。(2)中心极限定理并不是说原始总体(比如说一个国家的啤酒饮客)是符合正态分布的,而是说它的一组组抽样的均值,是符合正态分布的

当样本的容量越大(比如说,啤酒饮客抽样数从100变成1000),那么这个抽样均值的分布,就越像正态分布,如图2所示。换句话说,大量相互独立的随机变量,其均值的分布,是以正态分布为极限的。

图2  抽样分布之中心极限定理

中心极限定理最牛的地方在于,不管原始随机变量遵循的是什么分布,这个定理都是成立的。这个形式对数理统计特别有用!

 

中心极限定理在计量经济学中有着广泛的应用。应用案例之一,就是保险公司的保费确定。根据中心极限定理,含有n个风险单位的随机样本的平均损失(样本的均值),是符合正态分布的,这个结论对保险费率的厘定极为重要。保险公司不需要针对某一个人制定保险标准,而是拿某个阶层的群体(可视为一个个抽样集合),来作为研究对象,并参照同期银行利率,经过精算后,来照制定保费。倘若没有中心极限定理作为理论依据,保险公司采纳的各种精算模型是无法建立的。

为什么这个定理如此重要?

我们知道,统计学最本质的作用就是,用样本估计总体

中心极限定理作为统计学中一个非常重要的概念,它核心作用在于,可以让每个数据科学家能对数据做出统计推断。甚至在不需要特征化原来总体信息的情况下(也就是说,原始总体遵循何种分布是无关紧要的),数据科学家依然能够借助样本,来量化评估它所代表的总体。

比如说,在数理统计中,有两个常用的概念:置信区间(confidence interval)与假设检验(Hypothesis Testing)。前者说的是,由样本统计量所构造的总体参数的估计区间,它可以告诉我们,总体值很可能落在相对于估计值的什么位置。而后者说的是,根据一定假设条件,由样本推断总体的一种方法。这两个概念背后的理论基础,事实上,就是中心极限定理。

 

当然,中心极限定理的作用,并不仅仅局限于从样本推断整体。事实上,它的作用可以细分为如下4种类型:

(1)如果我们有一个样本的有效信息,那么我们可以准确地推断整体(常规作用)。

(2)如果我们有总体的信息,那么我们可以对某个有效样本,来做较为准确的有关这个总体的假设。

(3)如果我们有总体的信息和一个有效的样本,那么我们可以准确地推断这个样本是否来自这个总体。

(4)如果我们有两个不同样本的有效信息,那么我们还可以准确地推断出两个样本是否来自相同的总体。

因此,作为一个合格的数据科学家,应该深入理解这个定理。只有这样,才能在“数据科技(Data
Technology,DT)”时代,游刃有余地处理样本和总体之间的关系,这就是它为什么这么重要的原因。

 

延伸思考与阅读

迈尔-舍恩伯格在其著作《大数据时代》中,有一个非常重要的观点:大数据可以做到“n=all”(这里n代表采集的数据量),也就是“样本=总体”。

我们知道,统计学的核心目的在于,利用小样本,评估大总体。如果大数据时代真能做到“n=all”,的确,统计学的意义将大打折扣。

但梦想很丰满,现实很骨感!“n=all”常常仅是对数据的一种假设,往往不过是一个颇有诱惑力的假象而已。笔者曾撰写过一篇文章:《来自大数据的反思:需要你读懂的10个小故事》,对该论断有所讨论,请感兴趣的读者,可以移步阅读。

如果在大多数情况下,我们都无法做到“样本=总体”,那么依据样本,评估总体的需求,依然会迫切存在。于是,作为统计学里非常重要的定理——中心极限定理,还是值得每一位数据科学家掌握的。

 

译者介绍:张玉宏,著有《品味大数据》一书

 

时间: 2025-01-01 21:31:14

每一位数据科学家都应掌握的理论是什么?的相关文章

每个网站或应用的数据科学家都少不了A/B这样的工具

为了搞清楚哪个功能.哪个版的设计更好,每个网站或应用的数据科学家都少不了A/B这样的工具.Facebook发布了自己的A/B 测试源代码--叫做PlanOut,以帮助数据科学家又准.又方便地测试. Facebook在官博中写道, "Facebook每天运行的测试有上行次,有些为了优化结果,有些出于为远期的设计提供决策基础,因为工作量如此可观,我们需要一套可靠.稳定的测试程序,很多在线测试由工程师代劳,而他们并非有经验丰富的统计学家.测试做对的时候很容易解析,但在它们的设计.实现.记录和解析上很容

一位数据科学家的私房工具清单

作为一位万人敬仰的数据科学家,不但需要培育一棵参天技能树,私人武器库里没有一票玩得转的大火力工具也是没法在江湖中呼风唤雨的. 近日北卡来罗纳大学CTO,一位数据科学家Jefferson Heard分享了多年来收集沉淀的数据分析工具集: 处理较大.较复杂的类excel数据 Pandas -处理tabular(类似Excel)数据的通用工具套件 SQLite – Tabular数据库格式,能够处理大规模数据集,同时也能在桌面环境运行. PostgreSQL – 企业级数据库系统 处理空间.地理数据:

这一年来,数据科学家都用哪些算法?

在"数据为王"的今天,越来越多的人对数据科学产生了兴趣.数据科学家离不开算法的使用,那么,数据科学家最常用的算法,都是哪些呢? 最近,著名的资料探勘信息网站KDnuggets策划了十大算法调查,这次调查对数据科学家常用的算法进行排名,并发现最"产业"和最"学术"的算法,还对这些算法在过去5年间(2011~2016)的变化,做了一番详细的介绍. 这次调查结果,是基于844名受访者投票整理出来. KDnuggets总结出十大算法及其投票份额如下: 图

TeradataCTO:数据科学家应具备6种才能

新浪科技讯 4月24日 下午消息,大数据分析解决方案厂商Teradata天睿公司首席技术官宝立明(Stephen Brobst)在2013年Teradata大数据峰会间隙表示,要成为一位数据科学家需要具备多方面的人才,虽然目前人才缺乏,但学习数学.统计等专业的人才未来可以培养成为数据科学家.招聘信息搜索引擎Indeed.com的数据显示,随着大数据技术的发展,数据挖掘方面的人才变得日益抢手.而<哈佛商业评论>日前更是宣布,"数据科学家"是二十一世纪最性感的职业. 所谓性感,

3400位造型师,80位大数据科学家,这家美国女装公司这么做个性化定制

Stitch Fix有一支由80位数据科学家以及3400名造型师组成的团队,从合作的200多个服饰品牌中进行挑选和匹配,为顾客设计"私人穿搭".在Stitch Fix上,100%的购买行为都是通过推荐完成的,甚至所有的退货行为都被当做有价值的数据,让Stitch Fix的造型师们以此获得顾客的负面反馈,从而更好地调整造型风格或者商品描述. 作为硅谷极少数的女性CEO之一, Katrina Lake创建Stitch Fix之初,定位的受众就是那些和她一样忙于工作的女性.在不到六年的时间里

惠普:应把大数据科学家作为一种共享资源

大数据目前已经成为每一家企业级技术供应商摆在战略优先仪表板上的重要对象,但对于很多负责渠道销售工作的公司来说,召集拥有此类知识储备并能够处理复杂项目的人才在成本上太过高昂.甚至根本无法实现. 这类由具体实践领域所带来的投资难题早在过去就一直存在,惠普公司企业部门全球间接销售事务高级副总裁Sue Barsamian表示,她正努力帮助那些对分析有兴趣的用户找到适合自己的实现途径. "在某些时候,"她在接受采访时指出,"合作伙伴们确实需要一位数据科学家为其提出指导性意见.数据科学家

数据科学家必知的7款Python工具

如果你有志于做一个数据专家,你就应该保持一颗好奇心,总是不断探索,学习,问各种问题.在线入门教程和视频教程能帮你走出第一步,但是最好的方式就是通过熟悉各种已经在生产环境中使用的工具而为成为一个真正的数据专家做好充分准备. 我咨询了我们真正的数据专家,收集整理了他们认为所有数据专家都应该会的七款 Python 工具.The Galvanize Data Science 和 GalvanizeU 课程注重让学生们花大量的时间沉浸在这些技术里.当你找第一份工作的时候,你曾经投入的时间而获得的对工具的深

不能成为数据科学家?没关系,你还可以拥有数据思维

数据科学家日益突显的影响力令人惊叹--每次读到这种论调的文章我都感到好笑.虽然不是所有文章都像<哈佛商业评论>一样宣称数据科学家将是"21世纪最热门的职业",但是,几乎都是千篇一律的"我们预见了未来"的语气.我认为这种观点并没有错,但是在这种趋势中,我没有发现什么是值得惊奇或者是新鲜的.如果<洋葱报>(The Onion, 美国最受欢迎的幽默讽刺杂志)要报道,我想标题应该是: "最新研究表明,精通数学和编程的人被大量地雇佣"

考察数据科学家数据降维知识的40道题,快来测测吧(附答案)

更多深度文章,请关注:https://yq.aliyun.com/cloud 作者介绍 Ankit Gupta:数据科学家.IIIT Allahabad研究助理,热爱解决复杂的数据挖掘问题.了解更多关于数据科学和机器学习算法,目前致力于预测软件缺陷的项目. 领英:https://www.linkedin.com/in/ankit-gupta Github:https://github.com/anki1909 博客:https://www.analyticsvidhya.com/blog/aut