概率论10 方差与标准差

作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明。谢谢!

 

除了期望,方差(variance)是另一个常见的分布描述量。如果说期望表示的是分布的中心位置,那么方差就是分布的离散程度。方差越大,说明随机变量取值越离散。

 

比如射箭时,一个优秀的选手能保持自己的弓箭集中于目标点附近,而一个经验不足的选手,他弓箭的落点会更容易散落许多地方。

上面的靶上有两套落点。尽管两套落点的平均中心位置都在原点 (即期望相同),但两套落点的离散程度明显有区别。蓝色的点离散程度更小。

 

数学上,我们用方差来代表一组数据或者某个概率分布的离散程度。可见,方差是独立于期望的另一个对分布的度量。两个分布,完全可能有相同的期望,而方差不同,正如我们上面的箭靶。

 

方差

对于一个随机变量[$X$]来说,它的方差为:

$$Var(X) = E[(X - \mu)^2]$$

其中,[$\mu$]表示[$X$]的期望值,即[$\mu = E(X)$]。

 

我们可以代入期望的数学表达形式。比如连续随机变量:

$$Var(X) = E[(X - \mu)^2] = \int_{-\infty}^{+\infty}(x-\mu)^2 f(x)dx$$

 

方差概念背后的逻辑很简单。一个取值与期望值的“距离”用两者差的平方表示。该平方值表示取值与分布中心的偏差程度。平方的最小取值为0。当取值与期望值相同时,此时不离散,平方为0,即“距离”最小;当随机变量偏离期望值时,平方增大。由于取值是随机的,不同取值的概率不同,我们根据概率对该平方进行加权平均,也就获得整体的离散程度——方差。

 

方差的平方根称为标准差(standard deviation, 简写std)。我们常用[$\sigma$]表示标准差

$$\sigma = \sqrt{Var(X)}$$

标准差也表示分布的离散程度。

 

正态分布的方差 

根据上面的定义,可以算出正态分布

$$E(X) = \frac{1}{\sigma \sqrt{2 \pi}}\int_{-\infty}^{+\infty}xe^{-(x - \mu)^2/2 \sigma^2} dx$$

的方差为

$$Var(X) = \sigma^2$$

正态分布的标准差正等于正态分布中的参数[$\sigma$]。这正是我们使用字母[$\sigma$]来表示标准差的原因!

 

可以预期到,正态分布的[$\sigma$]越大,分布离散越大,正如我们从下面的分布曲线中看到的:

当方差小时,曲线下的面积更加集中于期望值0附近。当方差大时,随机变量更加离散。此时分布曲线的“尾部”很厚,即使在取值很偏离0时,比如[$x=4$]时,依然有很大的概率可以取到。

 

代码如下:

# By Vamei

from scipy.stats import norm
import numpy as np
import matplotlib.pyplot as plt

# Note the difference in "scale", which is std
rv1 = norm(loc=0, scale = 1)
rv2 = norm(loc=0, scale = 2)

x = np.linspace(-5, 5, 200)

plt.fill_between(x, rv1.pdf(x), y2=0.0, color="coral")
plt.fill_between(x, rv2.pdf(x), y2=0.0, color="green", alpha = 0.5)

plt.plot(x, rv1.pdf(x), color="red", label="N(0,1)")
plt.plot(x, rv2.pdf(x), color="blue", label="N(0,2)")

plt.legend()
plt.grid(True)

plt.xlim([-5, 5])
plt.ylim([-0.0, 0.5])

plt.title("normal distribution")
plt.xlabel("RV")
plt.ylabel("f(x)")

plt.show()

 

指数分布的方差

指数分布的表达式为

$$f(x) = \left\{ \begin{array}{rcl} \lambda e^{-\lambda x} & if & x \ge 0 \\ 0 & if & x < 0 \end{array} \right.$$

 

它的方差为

$$Var(X) = \frac{1}{\lambda^2}$$

 

如下图所示:

 

Chebyshev不等式

我们一直在强调,标准差(和方差)表示分布的离散程度。标准差越大,随机变量取值偏离平均值的可能性越大。如何定量的说明这一点呢?我们可以计算一个随机变量与期望偏离超过某个量的可能性。比如偏离超过2个标准差的可能性。即

$$P( | X - \mu | > 2\sigma)$$

这个概率依赖于分布本身的类型。比如正态分布[$N(0, 1)$],这一概率即为x大于2,或者x小于-2的部分对应的曲线下面积:

实际上,无论[$\mu$]和[$\sigma$]如何取值,对于正态分布来说,偏离期望超过两个标准差的概率都相同,约等于0.0455 (可以根据正态分布的表达式计算)。随机变量的取值有约95.545%的可能性落在正负两个标准差的区间内,即从-2到2。如果我们放大区间,比如正负三个标准差,这一概率超过99%。我们可以相当有把握的说,随机变量会落正负三个标准差之内。上面的论述并不依赖于标准差的具体值。这里可以看到标准差所衡量的“离散”的真正含义:如果取相同概率的极端值区间,比如上面的0.0455,标准差越大,该极端值区间距离中心值越远。

 

然而,上面的计算和表述依赖于分布的类型(正态分布)。如何将相似的方差含义套用在其它随机变量身上呢?

Chebyshev不等式让我们摆脱了对分布类型的依赖。它的叙述如下:

对于任意随机变量X,如果它的期望为[$\mu$],方差为[$\sigma^2$],那么对于任意[$t>0$],

$$P( | X - \mu | > t) \le \frac{\sigma^2}{t}$$

 

无论X是什么分布,上述不等式成立。我们让[$t = 2\sigma$],那么

$$P( | X - \mu | > 2\sigma) \le 0.25$$

也就是说,X的取值超过两个正负标准差的可能性最多为25%。换句话说,随机变量至少有75%的概率落在正负两个标准差的范围内。(显然这是最“坏”的情况下。正态分布显然不是”最坏“的)

 

绘图代码如下

from scipy.stats import norm
import numpy as np
import matplotlib.pyplot as plt

# Note the difference in "scale", which is std
rv1 = norm(loc=0, scale = 1)

x1 = np.linspace(-5, -1, 100)
x2 = np.linspace(1, 5, 100)
x  = np.linspace(-5, 5, 200)
plt.fill_between(x1, rv1.pdf(x1), y2=0.0, color="coral")
plt.fill_between(x2, rv1.pdf(x2), y2=0.0, color="coral")
plt.plot(x, rv1.pdf(x), color="black", linewidth=2.0, label="N(0,1)")

plt.legend()
plt.grid(True)

plt.xlim([-5, 5])
plt.ylim([-0.0, 0.5])

plt.title("normal distribution")
plt.xlabel("RV")
plt.ylabel("f(x)")

plt.show()

 

 

总结

我们引入了一个新的分布描述量:方差。它用于表示分布的离散程度。

标准差为方差的平方根。

方差越大,“极端区间”偏离中心越远。

 

欢迎继续阅读“数据科学”系列文章

时间: 2024-09-20 06:30:13

概率论10 方差与标准差的相关文章

方差,标准差,协方差、期望值

方差:方差是变量与其平均值的平方和的算术平均值,例如:             有一组数据{4,5,6,7}, 平均值为:(4+5+6+7)/4=22/4=5.5             其方差为:[(4-5.5)2+(5-5.5)2+(6-5.5)2+(7-5.5)2]/4 标准差:方差的开2次方             例如上面那组数据的标准差为:{[(4-5.5)2+(5-5.5)2+(6-5.5)2+(7-5.5)2]/4}0.5 协方差:             在概率论和统计学中,协

期望、方差、协方差及相关系数的基本运算

这篇文章总结了概率统计中期望.方差.协方差和相关系数的定义.性质和基本运算规则. 一.期望 定义:   设P(x)是一个离散概率分布函数自变量的取值范围是.那么其期望被定义为:                                                                       设P(x)是一个连续概率分布函数 ,那么他的期望是:                                                                 

《Excel数据可视化:一样的数据不一样的图表》——2.2 表示数据稳定性的标准差和变异系数

2.2 表示数据稳定性的标准差和变异系数 在统计学领域中,概率论是统计学的一个分支,而随机变量是概率论的一个方面.随机变量的分布描述了随机现象的统计规律,然而对于许多实际问题,随机变量的分布并不容易求得:另外,有一些实际问题往往并不直接对分布感兴趣,而只感兴趣分布的少数几个特征指标,称之为随机变量的数字特征.其中最主要的就是期望值.方差和标准差.如果要表示数据稳定性的统计量,则一般会用标准差和变异系数. 其实在统计学中,表示数据离散程度的统计量除了本节要详细介绍的标准差和变异系数外,还有常用的极

【原创】开源Math.NET基础数学类库使用(10)C#进行基本数据统计

               本博客所有文章分类的总目录:[总目录]本博客博文总目录-实时更新  开源Math.NET基础数学类库使用总目录:[目录]开源Math.NET基础数学类库使用总目录 前言 数据集的基本统计计算是应用数学,以及统计应用中最常用的功能.如计算数据集的均值,方差,标准差,最大值,最小值,熵等等.Math.NET中的MathNet.Numerics.Statistics命名空间就包括了大量的这些统计计算的函数.今天就为大家介绍这方面的内容.这样就可以使用C#进行数据集合的相关

PostgreSQL 聚合函数讲解 - 3 总体|样本 方差, 标准方差

PostgreSQL自带了一些常用的统计学聚合函数, 非常好用. 本文介绍一下方差和标准差的一些聚合函数. 总体方差 : population covariance 总体标准差 : population standard deviation 样本方差 : sample covariance 样本标准差 : sample standard deviation 均值 : mean 样本均值和样本方差的介绍 : http://en.wikipedia.org/wiki/Sample_mean_and_

流式大数据实时处理技术、平台及应用

摘要:大数据处理系统根据其时效性可分为批式大数据和流式大数据两类.上述两类系统均无法满足"事中"感知查询分析处理模式的需求.为此,从分析大数据应用场景入手,提出了"流立方"流式大数据实时处理技术和平台,在完整大数据集上实现了低迟滞.高实时的即席查询分析.目前基于"流立方"平台开发的业务系统已应用到金融风控反欺诈.机器防御等领域,具有广阔的应用前景. 1.引言 大数据技术的广泛应用使其成为引领众多行业技术进步.促进效益增长的关键支撑技术.根据数据处

【程序员眼中的统计学(4)】离散概率分布的运用:善用期望

离散概率分布的运用:善用期望  1 离散概率分布 1  定义 设离散型随机变量X所有可能得取值 Xi (i=1,2,3--.n),且事件{X=xi }的概率为P{X=xi }= pi ,此称为离散型随机变量的概率分布或分布列,即离散概率分布.用表格可表示: 作为一个离散概率分布,应满足以下两个性质: 在日常生活中此类例子不胜枚举,比如,扔一枚或多枚硬币,出现正面朝上的次数. 2    基本概念 离散随机变量 若一个随机变量X的所有可能的取值为有限个或无限可数个, 则称它为离散型随机变量.例如,玩

《R的极客理想——高级开发篇 A》一一1.3 概率基础和R语言

1.3 概率基础和R语言 问题如何用R语言学习概率? 引言R语言是统计语言,概率又是统计的基础,所以可以想到,R语言必然要从底层API上提供完整.方便.易用的概率计算的函数.下面就让R语言帮我们学好概率的基础课.1.3.1 随机变量介绍随机变量(random variable)表示随机现象各种结果的实值函数,定义在样本空间S上.由于它的自变量是随机试验的结果,而随机试验结果的出现具有随机性,因此,随机变量的取值具有一定的随机性.样本空间是随机试验的一切可能的基本结果组成的集合,记为S.样本空间的

小白学数据分析------&gt;日活跃人数分析

从今天开始,特开辟一个小专栏,题目暂定为小白学数据分析,鄙人不才,在数据分析的道路上走的崎岖坎坷,同时数据分析本身是一个多面和复杂的工作,要懂得理论(统计.概率.数据挖掘.算法.模型)更要懂得业务,懂得行业理论,还要有灵活多变的思维,想想还是很复杂和麻烦的,所讲内容不但是理论,不仅是数据,尽量把这些东西综合起来,立体的来看,鄙人水平有限,很多的内容是尝试和改进,参考了很多的材料,在木有高人指点和牛人帮助的情况下,我只能借助浩瀚的网络知识和自己的悟性,今天决心拿出来给各位主要是帮助大家和我一起进步