2.2概率论的基本概念
2.2.1概率的定义和性质
概率(probability)是一个从随机事件空间到实数域的函数,用来描述随机事件发生的可能性。通常用Ω表示随机事件的样本空间,用AΩ表示随机事件。Ω也称为平凡事件,则称为空事件。
一个概率分布(或概率函数)P必须满足如下三条公理:
非负性公理P(A)≥0
规范性公理P(Ω)=1
可加性公理对任意可数无穷多个两两不相交事件样本AiΩ,Ai∩Aj=(i≠j),有
P∪∞i=1Ai=∑∞i=1P(Ai)(2.21)
一般情况下,只有非常特殊的事件才能计算出准确的概率,如抛掷无偏硬币时出现的正反面概率。而大量随机事件发生的真实概率通常是无法确知的,但通常可以采用事件发生的频率近似估计,这种用频率估计概率的方法称为最大似然估计。
如果对于所有非空事件AΩ,A≠,都有P(A)>0,则称P是正分布(positive distribution)。
如果两个事件A,BΩ,P(B)>0,那么在给定B时,A的条件概率(conditional probability)定义为
P(AB)=P(AB)P(B)=P(A∩B)P(B)(2.22)
其中,AB=A∩B表示A和B的交事件,即它们同时发生的事件。
条件概率P(AB)是在假定事件B发生的情况下,事件A发生的概率。一般地,P(AB)≠P(A)。
如果P(AB)=P(A)P(B),那么称事件A和B在概率分布P中独立,记为P (A⊥B)或P (B⊥A)。易知,当P(AB)=P(A)、P(BA)=P(B)、P(A)=0或P(B)=0时,事件A和B也是独立的。
如果P(ABC)=P(AC)P(BC),那么称事件A和B在概率分布P中条件独立于事件C,记作P(A⊥BC)或P(B⊥AC)。易知,当P(ABC)=P(AC)、P(BAC)=P(BC)、P(BC)=0或P(AC)=0时,事件A和B也是条件独立于事件C的。
利用条件概率,不难得到概率的乘法规则:
P(AB)=P(B)P(AB)=P(A)P(BA)(2.23)
P(A1A2…An)=P(A1)P(A2A1…AnA1A2…An-1)(2.24)
如果有限个事件BiΩ构成Ω的一个划分,即Bi∩Bj=(i≠j)且∪Bi=Ω,那么有定义时还可得到全概率公式:
P(A)=∑iP(ABi)P(Bi)(2.25)
以及相应的贝叶斯法则:
P(BjA)=P(ABj)P(Bj)P(A)=P(ABj)P(Bj)∑iP(ABi)P(Bi)(2.26)```
###2.2.2随机变量和概率密度函数
随机变量X:ΩR是一个定义在样本空间Ω上的实值函数,它的值域表示为:
val(X)={X(ω):ω∈Ω}(2.27)
它的累积分布函数(cumulative distribution function,CDF)定义为:
F(x)=P(X≤x)=P(ω∈Ω:X(ω)≤x)(2.28)
其中,F(-∞)=0,F(+∞)=1。
更一般地,对随机向量X={X1,X2,…,XN},也可以定义相应的联合累计分布函数为:
F(x)=P(X1≤x1,X2≤x2,…,XN≤xN)(2.29)
对连续的随机变量X和随机向量X,还可以进一步定义概率密度函数(probability density function):
p(x)=dF(x)dx(2.30)
以及联合概率密度函数:
p(x)=NF(x)x1…xN(2.31)
如果p(x,y)是随机变量X和Y的联合概率密度函数,那么p(x,y)关于X和Y的边缘分布定义为:
p(x)=∑y∈val(Y)p(x,y)(2.32)
p(y)=∑x∈val(X)p(x,y)(2.33)
如果X的概率密度函数是恒正的,即p(x)>0,那么在给定X时,Y的条件概率密度函数定义为:
p(yx)=p(x,y)p(x)(2.34)
最简单的概率密度函数是均匀分布,记作X~Unif[a,b],即:
p(x)=1/(b-a),a≤x≤b
0,其他(2.35)
另一个常用的概率密度函数是高斯分布,记作X~N(μ,σ2),即:
p(x)=12πσe-(x-μ)22σ2=12πσexp-(x-μ)22σ2(2.36)
其中μ是X的均值,σ2是X的方差。
对于随机向量X,如果给定一组采样x(l)(1≤l≤N),则其经验分布(empirical distribution)为
p(X)=1N∑Nl=1δ(X-x(l))(2.37)
其中,δ是Dirac函数,又称为冲击响应函数,即δ(x)=1,x=0
0,x≠0
如果三个随机变量的集合X、Y、Z对概率分布P满足P(X,YZ)=P(XZ)P(YZ),那么称集合X和Y在分布P中条件独立于集合Z,记作(X⊥YZ)。其中集合Z中的变量通常称为观测变量。如果Z是空集,可以把(X⊥Y)记作(X⊥Y),并且称X和Y是边缘独立的(marginally independent)。
###2.2.3期望和方差
离散随机变量X的期望定义为
E(X)=EP(X)=∑x∈val(X)xP(x)(2.38)
连续随机变量X的期望定义为
E(X)=Ep(X)=∫val(X)xp(x)dx(2.39)
随机变量X的方差定义为
var(X)=E((X-E(X)2)=E(X2)-E2(X)(2.40)
两个随机变量X和Y的期望满足线性关系:
E(X+Y)=E(X)+E(Y)(2.41)
如果X和Y独立,那么
E(X•Y)=E(X)•E(Y)(2.42)
var(X+Y)=var(X)+var(Y)(2.43)
此外,对任意ε>0,期望和方差满足切比雪夫不等式(Chebyshev inequality):
P(X-E(X)≥ε)≤var(X)ε2(2.44)