每个数据科学专家都应该知道的六个概率分布

介绍

假设你是一所大学的老师。在对一周的作业进行了检查之后,你给所有的学生打了分数。你把这些打了分数的论文交给大学的数据录入人员,并告诉他创建一个包含所有学生成绩的电子表格。但这个人却只存储了成绩,而没有包含对应的学生。

他又犯了另一个错误,在匆忙中跳过了几项,但我们却不知道丢了谁的成绩。我们来看看如何来解决这个问题吧。

一种方法是将成绩可视化,看看是否可以在数据中找到某种趋势。

上面展示的图形称为数据的频率分布。其中有一个平滑的曲线,但你注意到有一个异常情况了吗?在某个特定的分数范围内,数据的频率异常低。所以,最准确的猜测就是丢失值了,从而导致在分布中出现了凹陷。

这个过程展示了你该如何使用数据分析来尝试解决现实生活中的问题。对于任何一位数据科学家、学生或从业者来说,分布是必须要知道的概念,它为分析和推理统计提供了基础。

虽然概率为我们提供了数学上的计算,而分布却可以帮助我们把内部发生的事情可视化。

在本文中,我将介绍一些重要的概率分布,并会清晰全面地对它们进行解释。

注意:本文假设你已经具有了概率方面的基本知识。如果没有,可以参考这篇有关概率基础的文章。

目录

  1. 常见的数据类型
  2. 分布的类型
        2.1. 伯努利分布
        2.2. 均匀分布
        2.3. 二项分布
        2.4. 正态分布
        2.5. 泊松分布
        2.6. 指数分布
  3. 各个分布之间的关系

常见的数据类型

在开始详细讲述分布之前,先来看看我们会遇到哪些种类的数据。数据可以分为离散的和连续的。

离散数据:顾名思义,只包含指定的值。例如,当你投骰子的时候,输出结果只可能是1、2、3、4、5或6,而不可能出现1.5或2.45。

连续数据:可以在给定的范围内取任何值。范围可以是有限的,也可以是无限的。例如,女孩的体重或身高、路程的长度。女孩的体重可以是54千克、54.5千克,或54.5436千克。

现在我们开始学习分布的类型。

分布的类型

伯努利分布

我们首先从最简单的分布伯努利分布开始。

伯努利分布只有两种可能的结果,1(成功)和0(失败)。因此,具有伯努利分布的随机变量X可以取值为1,也就是成功的概率,可以用p来表示,也可以取值为0,即失败的概率,用q或1-p来表示。

概率质量函数由下式给出:px(1-p)1-x, 其中x € (0, 1)。它也可以写成:

成功与失败的概率不一定相等。这里,成功的概率(p)与失败的概率不同。所以,下图显示了我们之间比赛结果的伯努利分布。

这里,成功的概率 = 0.15,失败的概率 = 0.85 。如果我打了你,我可能会期待你向我打回来。任何分布的基本预期值是分布的平均值。来自伯努利分布的随机变量X的期望值如为:

E(X) = 1p + 0(1-p) = p

随机变量与二项分布的方差为:

V(X) = E(X²) – [E(X)]² = p – p² = p(1-p)

伯努利分布的例子有很多,比如说明天是否要下雨,如果下雨则表示成功,如果不下雨,则表示失败。

均匀分布

对于投骰子来说,结果是1到6。得到任何一个结果的概率是相等的,这就是均匀分布的基础。与伯努利分布不同,均匀分布的所有可能结果的n个数也是相等的。

如果变量X是均匀分布的,则密度函数可以表示为:

均匀分布的曲线是这样的:

你可以看到,均匀分布曲线的形状是一个矩形,这也是均匀分布又称为矩形分布的原因。其中,a和b是参数。

花店每天销售的花束数量是均匀分布的,最多为40,最少为10。我们来计算一下日销售量在15到30之间的概率。

日销售量在15到30之间的概率为(30-15)*(1/(40-10)) = 0.5

同样地,日销售量大于20的概率为 = 0.667

遵循均匀分布的X的平均值和方差为:

平均值 -> E(X) = (a+b)/2

方差 -> V(X) =  (b-a)²/12

标准均匀密度的参数 a = 0 和 b = 1,因此标准均匀密度由下式给出:

二项分布

让我们来看看玩板球这个例子。假设你今天赢了一场比赛,这表示一个成功的事件。你再比了一场,但你输了。如果你今天赢了一场比赛,但这并不表示你明天肯定会赢。我们来分配一个随机变量X,用于表示赢得的次数。 X可能的值是多少呢?它可以是任意值,这取决于你掷硬币的次数。

只有两种可能的结果,成功和失败。因此,成功的概率 = 0.5,失败的概率可以很容易地计算得到:q = p – 1 = 0.5。

二项式分布就是只有两个可能结果的分布,比如成功或失败、得到或者丢失、赢或败,每一次尝试成功和失败的概率相等。

结果有可能不一定相等。如果在实验中成功的概率为0.2,则失败的概率可以很容易地计算得到 q = 1 - 0.2 = 0.8。

每一次尝试都是独立的,因为前一次投掷的结果不能决定或影响当前投掷的结果。只有两个可能的结果并且重复n次的实验叫做二项式。二项分布的参数是n和p,其中n是试验的总数,p是每次试验成功的概率。

在上述说明的基础上,二项式分布的属性包括:

  1. 每个试验都是独立的。
  2. 在试验中只有两个可能的结果:成功或失败。
  3. 总共进行了n次相同的试验。
  4. 所有试验成功和失败的概率是相同的。 (试验是一样的)

二项分布的数学表示由下式给出:

成功概率不等于失败概率的二项分布图:

现在,当成功的概率 = 失败的概率时,二项分布图如下

二项分布的均值和方差由下式给出:

平均值 -> µ = n*p

方差 -> Var(X) = npq

正态分布

正态分布代表了宇宙中大多数情况的运转状态。大量的随机变量被证明是正态分布的。任何一个分布只要具有以下特征,则可以称为正态分布:

  1. 分布的平均值、中位数和模式一致。
  2. 分布曲线是钟形的,关于线 x = μ 对称。
  3. 曲线下的总面积为1。
  4. 有一半的值在中心的左边,另一半在右边。

正态分布与二项分布有着很大的不同。然而,如果试验次数接近于无穷大,则它们的形状会变得十分相似。

遵循正态分布的随机变量X的值由下式给出:

正态分布的随机变量X的均值和方差由下式给出:

均值 -> E(X) = µ

方差 -> Var(X) = σ^2

其中,μ(平均)和σ(标准偏差)是参数。
随机变量X〜N(μ,σ)的图如下所示。

标准正态分布定义为平均值等于0,标准偏差等于1的分布:

泊松分布

假设你在一个呼叫中心工作,一天里你大概会接到多少个电话?它可以是任何一个数字。现在,呼叫中心一天的呼叫总数可以用泊松分布来建模。这里有一些例子:

  1. 医院在一天内录制的紧急电话的数量。
  2. 某个地区在一天内报告的失窃的数量。
  3. 在一小时内抵达沙龙的客户人数。
  4. 在特定城市上报的自杀人数。
  5. 书中每一页打印错误的数量。

泊松分布适用于在随机时间和空间上发生事件的情况,其中,我们只关注事件发生的次数。

当以下假设有效时,则称为泊松分布

  1. 任何一个成功的事件都不应该影响另一个成功的事件。
  2. 在短时间内成功的概率必须等于在更长的间内成功的概率。
  3. 时间间隔变小时,在给间隔时间内成功的概率趋向于零。

泊松分布中使用了这些符号:

  • λ是事件发生的速率
  • t是时间间隔的长
  • X是该时间间隔内的事件数。

其中,X称为泊松随机变量,X的概率分布称为泊松分布。

令μ表示长度为t的间隔中的平均事件数。那么,µ = λ*t。

泊松分布的X由下式给出:

平均值μ是该分布的参数。 μ也定义为该间隔的λ倍长度。泊松分布图如下所示:

下图显示了随着平均值的增加曲线的偏移情况:

可以看出,随着平均值的增加,曲线向右移动。

泊松分布中X的均值和方差:

均值 -> E(X) = µ
方差 -> Var(X) = µ

指数分布

让我们再一次看看呼叫中心的那个例子。不同呼叫之间的时间间隔是多少呢?在这里,指数分布模拟了呼叫之间的时间间隔。

其他类似的例子有:

  1. 地铁到达时间间隔
  2. 到达加油站的时间
  3. 空调的寿命

指数分布广泛用于生存分析。从机器的预期寿命到人类的预期寿命,指数分布都能成功地提供结果。

具有的指数分布的随机变量X:

f(x) = { λe-λx,  x ≥ 0

参数 λ>0 也称为速率。

对于生存分析,λ被称为任何时刻t的设备的故障率,假定它已经存活到t时刻。

遵循指数分布的随机变量X的均值和方差为:

平均值 -> E(X) = 1/λ

方差 -> Var(X) = (1/λ)²

此外,速率越大,曲线下降越快,速率越慢,曲线越平坦。下面的图很好地解释了这一点。

为了简化计算,下面给出一些公式。

P{X≤x} = 1 – e-λx 对应于x左侧曲线下的面积。

PP{X>x} = e-λx 对应于x右侧曲线下的面积。

P{x1-λx1 – e-λx2, corresponds to the area under the density curve between x1 and x2.

P{x1-λx1 – e-λx2 对应于x1和x2之间地曲线下的面积。

各种分布之间的关系

伯努利与二项分布之间的关系

  1. 伯努利分布是具有单项试验的二项式分布的特殊情况。
  2. 伯努利分布和二项式分布只有两种可能的结果,即成功与失败。
  3. 伯努利分布和二项式分布都具有独立的轨迹。

泊松与二项式分布之间的关系

泊松分布在满足以下条件的情况下是二项式分布的极限情况:

  1. 试验次数无限大或n → ∞。
  2. 每个试验成功的概率是相同的,无限小的,或p → 0。
  3. np = λ,是有限的。

正态分布与二项式分布之间的关系,以及正态分布与泊松分布之间的关系

正态分布是在满足以下条件的情况下二项分布的另一种限制形式:

  1. 试验次数无限大,n → ∞。
  2. p和q都不是无限小。

正态分布也是参数λ → ∞的泊松分布的极限情况。

指数和泊松分布之间的关系

如果随机事件之间的时间遵循速率为λ的指数分布,则时间长度t内的事件总数遵循具有参数λt的泊松分布。

结束语

概率分布在许多领域都很常见,包括保险、物理、工程、计算机科学甚至社会科学,如心理学和医学。它易于应用,并应用很广泛。本文重点介绍了日常生活中经常能遇到的六个重要分布,并解释了它们的应用。现在,你已经能够识别、关联和区分这些分布了。

文章原标题《6 Common Probability Distributions every data science professional should know》,作者:RADHIKA NIJHAWAN,译者:夏天,审校:主题曲。

文章为简译,更为详细的内容,请查看原文

时间: 2024-10-28 21:36:50

每个数据科学专家都应该知道的六个概率分布的相关文章

关于数据科学的那些事

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 请收下这份关于人工智能的根目录--博客整理系列(一) 关于数据科学的那些事--博客整理系列(二) 机器学习必备手册--博客整理系列(三) 扩展眼界的都在这--博客整理系列(四) 深度学习必备手册(上)--博客整理系列(五) 深度学习必备手册(下)--博客整理系列(六) 随着科技的发展,人类社会拥有数据的规模增长很快,每时每刻.从天到地都有大量数据被产生和存储下来.这些数据被积累下来,到底怎么样使用才能创造出我

数据科学入门难?老司机为你盘点 24 门精品课程

本文盘点了 24 个高品质的在线数据科学入门教程,原作者 David Venturi,他获有化学工程和经济学的双学位,热衷于数学.数据科学和统计学,同时也是一位编程爱好者.更具传奇色彩的是,他本来就读于一所名校的计算机科学专业,但觉得对数据科学更感兴趣--于是果断退学,从 Coursera.edx.Udemy 等慕课平台开始自学,终迈入专家行列. 他的经历说来也并不特别,世界上又多了一个慕课代言人而已.但雷锋网认为,他的经历具有两点价值:首先,最好的教学资源已经在那儿了--很多还是免费的,取不取

数据分析工具独领风骚 数据科学服务表示不服

企业需要从大量收集的数据中攫取价值,但很多企业似乎无法找到足够的数据科学家来做这件事.因此数据科学作为一项服务变呼之而出. 处于如此困境的企业可以把他们的原生数据外包给类似DataScience这样的公司,这是一家位于加利福尼亚Culver City的创业公司.其分析团队对数据进行清理并使用复杂的建模工具.国产软件来提供建议,这样客户就可以根据这些建议来改进产品和服务,展他们的客户群,最终增加收入. SearchBusinessAnalytics与DataScience的CEO兼创始人Ian S

Airbnb数据科学团队进化论:如何由内而外实现数据驱动

虽然团队组织结构的演化允许数据科学家团队繁荣兴旺,但是公司的成功源于"精准定位"于两件事:发自肺腑地关爱员工,积极主动的数据驱动决策.不论是开发可持续利用的开源工具还是奋力改进数据科学部门的多样性,Airbnb数据科学团队负责人Alok很清楚,Airbnb追求的事都要贯彻这两个原则. ◆ ◆ ◆ 超级增长:短短几年,从5到70+数据科学家 在2013年,Airbnb只有一个5人数据科学团队,集中地为公司的数据需求提供服务.此后,他们成长为最大的.也是最有创意的创业团队之一,拥有超过70

一份语言选择指南带你玩数据科学,选出你心中支持的语言

更多深度文章,请关注:https://yq.aliyun.com/cloud 随着大数据时代的到来,网络每天会产生大量的数据,一些行业会对这些数据进行分析并协助企业不断地发展新业务.创建运营模式等,比如电子商务.推荐系统等.那么谁对这些大数据进行分析呢?对应的工作领域是数据科学(Data Science),该领域需要结合先进的统计知识.定量分析能力和编程能力.涉及到编程,大家都会面临一个问题,有太多的编程语言可供选择,那么哪些编程语言适合数据科学领域呢?虽然没有正确答案,但想成为一名成功的数据科

从大数据向大信息升华,亟待统计科学与数据科学的革新

大科学工程,是以工程方式.计划手段.汇聚科技资源与力量整体推进重大科技计划的最新范式,是科学研究由传统的"手工小作坊"向现代大规模"工场"演进的一次革命.大科学范式的"兵团作战",将以空域和领域维度上的大规模,甚至超越时域维度上的长尺度,实现今朝一日.史上数年的突破. 大科学是大数据的摇篮,大数据是大科学的产物 大科学的王者之道始于大数据的产生.人类历史上的大数据,源于科技领域,确切地说源于大科学研究.曼哈顿计划打开了微观世界,并开创了借用人造的

2016美国大选预测失败意味着什么?14位专家帮你分析数据科学的未来

雷锋网按:2016年眼看就要结束,外媒KDnuggets近期就机器学习.人工智能.大数据.数据科学和预测分析等领域在2016年取得的主要发展,以及2017年可能发生的变化趋势,询问了业内诸多的专家学者,组成了一个系列文章.昨天,雷锋网(公众号:雷锋网)编译了其中关于大数据的文章:<大数据领域在2016年都有哪些成果及趋势?听听8位专家怎么说>,今天带来关于数据科学和预测分析的部分. 本文中一共采访了14位数据科学和预测分析领域的专家.除了表示大数据和预测分析技术将在2017年度得到更大的发展之

大数据见闻 » 刚毕业的小鲜肉都将熟知数据科学

数据科学与大数据技术走进高校 大数据专业人才紧缺150万,32所高校成为第二批成功申请"数据科学与大数据技术"本科新专业的高校,加上第一批的3所,共有北京大学.中南大学等35所获批. 大数据揭养孩子一年到底要花多少钱 大神们,再不拼就要out了,未来两年高校里新鲜出炉的小鲜肉说不定都已经熟练掌握数据技术了. 养个孩子一年到底要花多少钱?记账类App的大数据中心为你揭晓. 在一个日活超过400万用户的记账工具上,有一类专为母婴类消费者设置的"宝宝账本""怀孕

《驾驭大数据》一8.3 每一位优秀的分析专家都是独特的

8.3 每一位优秀的分析专家都是独特的 驾驭大数据这些年最让我吃惊的是,我认识的每一位优秀的分析专家都是独特的,或多或少都会打破一些常规.我圈子里的一些人也有着同样的感觉.为什么优秀的分析专家往往会与众不同呢?列举我们认为优秀分析专家通常应该具备的基本特质,从清单上来看,会发现他们多少都会违背这些特质!在开始讨论更重要的特质之前,我们先来讨论为什么有些特质并非像看上去的那么重要. 8.3.1 教育 有一位多年前曾与我共事过的男士,他是我所认识的最优秀的分析专家之一.他的名字叫Bart,Bart早