《深度学习导论及案例分析》一2.2概率论的基本概念

2.2概率论的基本概念

2.2.1概率的定义和性质

概率(probability)是一个从随机事件空间到实数域的函数,用来描述随机事件发生的可能性。通常用Ω表示随机事件的样本空间,用AΩ表示随机事件。Ω也称为平凡事件,则称为空事件。

一个概率分布(或概率函数)P必须满足如下三条公理:

非负性公理P(A)≥0

规范性公理P(Ω)=1

可加性公理对任意可数无穷多个两两不相交事件样本AiΩ,Ai∩Aj=(i≠j),有
P∪∞i=1Ai=∑∞i=1P(Ai)(2.21)
一般情况下,只有非常特殊的事件才能计算出准确的概率,如抛掷无偏硬币时出现的正反面概率。而大量随机事件发生的真实概率通常是无法确知的,但通常可以采用事件发生的频率近似估计,这种用频率估计概率的方法称为最大似然估计。

如果对于所有非空事件AΩ,A≠,都有P(A)>0,则称P是正分布(positive distribution)。

如果两个事件A,BΩ,P(B)>0,那么在给定B时,A的条件概率(conditional probability)定义为
P(AB)=P(AB)P(B)=P(A∩B)P(B)(2.22)
其中,AB=A∩B表示A和B的交事件,即它们同时发生的事件。

条件概率P(AB)是在假定事件B发生的情况下,事件A发生的概率。一般地,P(AB)≠P(A)。

如果P(AB)=P(A)P(B),那么称事件A和B在概率分布P中独立,记为P (A⊥B)或P (B⊥A)。易知,当P(AB)=P(A)、P(BA)=P(B)、P(A)=0或P(B)=0时,事件A和B也是独立的。

如果P(ABC)=P(AC)P(BC),那么称事件A和B在概率分布P中条件独立于事件C,记作P(A⊥BC)或P(B⊥AC)。易知,当P(ABC)=P(AC)、P(BAC)=P(BC)、P(BC)=0或P(AC)=0时,事件A和B也是条件独立于事件C的。

利用条件概率,不难得到概率的乘法规则:
P(AB)=P(B)P(AB)=P(A)P(BA)(2.23)

P(A1A2…An)=P(A1)P(A2A1…AnA1A2…An-1)(2.24)
如果有限个事件BiΩ构成Ω的一个划分,即Bi∩Bj=(i≠j)且∪Bi=Ω,那么有定义时还可得到全概率公式:
P(A)=∑iP(ABi)P(Bi)(2.25)
以及相应的贝叶斯法则:
P(BjA)=P(ABj)P(Bj)P(A)=P(ABj)P(Bj)∑iP(ABi)P(Bi)(2.26)```
###2.2.2随机变量和概率密度函数

随机变量X:ΩR是一个定义在样本空间Ω上的实值函数,它的值域表示为:
val(X)={X(ω):ω∈Ω}(2.27)
它的累积分布函数(cumulative distribution function,CDF)定义为:
F(x)=P(X≤x)=P(ω∈Ω:X(ω)≤x)(2.28)
其中,F(-∞)=0,F(+∞)=1。

更一般地,对随机向量X={X1,X2,…,XN},也可以定义相应的联合累计分布函数为:
F(x)=P(X1≤x1,X2≤x2,…,XN≤xN)(2.29)
对连续的随机变量X和随机向量X,还可以进一步定义概率密度函数(probability density function):
p(x)=dF(x)dx(2.30)
以及联合概率密度函数:
p(x)=NF(x)x1…xN(2.31)
如果p(x,y)是随机变量X和Y的联合概率密度函数,那么p(x,y)关于X和Y的边缘分布定义为:
p(x)=∑y∈val(Y)p(x,y)(2.32)

p(y)=∑x∈val(X)p(x,y)(2.33)
如果X的概率密度函数是恒正的,即p(x)>0,那么在给定X时,Y的条件概率密度函数定义为:
p(yx)=p(x,y)p(x)(2.34)
最简单的概率密度函数是均匀分布,记作X~Unif[a,b],即:
p(x)=1/(b-a),a≤x≤b

0,其他(2.35)
另一个常用的概率密度函数是高斯分布,记作X~N(μ,σ2),即:
p(x)=12πσe-(x-μ)22σ2=12πσexp-(x-μ)22σ2(2.36)
其中μ是X的均值,σ2是X的方差。

对于随机向量X,如果给定一组采样x(l)(1≤l≤N),则其经验分布(empirical distribution)为
p(X)=1N∑Nl=1δ(X-x(l))(2.37)
其中,δ是Dirac函数,又称为冲击响应函数,即δ(x)=1,x=0

0,x≠0

如果三个随机变量的集合X、Y、Z对概率分布P满足P(X,YZ)=P(XZ)P(YZ),那么称集合X和Y在分布P中条件独立于集合Z,记作(X⊥YZ)。其中集合Z中的变量通常称为观测变量。如果Z是空集,可以把(X⊥Y)记作(X⊥Y),并且称X和Y是边缘独立的(marginally independent)。

###2.2.3期望和方差

离散随机变量X的期望定义为
E(X)=EP(X)=∑x∈val(X)xP(x)(2.38)
连续随机变量X的期望定义为
E(X)=Ep(X)=∫val(X)xp(x)dx(2.39)
随机变量X的方差定义为
var(X)=E((X-E(X)2)=E(X2)-E2(X)(2.40)
两个随机变量X和Y的期望满足线性关系:
E(X+Y)=E(X)+E(Y)(2.41)
如果X和Y独立,那么
E(X•Y)=E(X)•E(Y)(2.42)

var(X+Y)=var(X)+var(Y)(2.43)
此外,对任意ε>0,期望和方差满足切比雪夫不等式(Chebyshev inequality):
P(X-E(X)≥ε)≤var(X)ε2(2.44)

时间: 2024-09-22 07:10:21

《深度学习导论及案例分析》一2.2概率论的基本概念的相关文章

《深度学习导论及案例分析》一第一部分 基 础 理 论

   本节书摘来自华章出版社<深度学习导论及案例分析>一书中的第1章,第1.1节,作者李玉鑑  张婷,更多章节内容可以访问"华章计算机"公众号查看. PART1 第一部分 基 础 理 论   本书第一部分主要探讨深度学习的基础理论.深度学习起源于神经网络,其本质是一系列深层网络模型的学习和训练算法.本部分涵盖了深度学习的主要内容,有助于读者在总体上把握深度学习的发展脉络和体系结构,是开展进一步相关工作的基础. 这部分共包括13章.第1章勾画深度学习的起源和发展.特点和优势.

《深度学习导论及案例分析》一3.2受限玻耳兹曼机的学习算法

本节书摘来自华章出版社<深度学习导论及案例分析>一书中的第3章,第3.2节,作者李玉鑑 张婷,更多章节内容可以访问"华章计算机"公众号查看. 3.2受限玻耳兹曼机的学习算法 受限玻耳兹曼机的学习就是对模型参数集θ进行计算,常用的方法是最大似然估计,其基本思想在于采用梯度上升算法最大化总体对数似然函数.在给定可视向量训练集S={v(l),1≤l≤N}时,受限玻耳兹曼机的对数似然函数定义为 lRBM(θ)=log∏Nl=1p(v(l)θ)=∑Nl=1logp(v(l)θ)(3.

《深度学习导论及案例分析》一第3章 受限玻耳兹曼机3.1 受限玻耳兹曼机的标准模型

第3章 受限玻耳兹曼机 受限玻耳兹曼机(Restricted Boltzmann Machines,RBM)是一种能够解释为随机神经网络的概率图模型,随着计算能力的增加和快速算法的发展已经广泛应用于解决相关的机器学习问题.由于受限玻耳兹曼机只具有两层结构,所以从严格意义上说并不是一种真正的深度学习模型.这种模型之所以受到关注,是因为它可以用作基本模块来构造自编码器.深层信念网络.深层玻耳兹曼机等许多其他深层学习模型.本章将从概率图模型的角度,分别讨论受限玻耳兹曼机的标准模型.学习算法.案例分析及

《深度学习导论及案例分析》一1.3深度学习的模型和算法

1.3深度学习的模型和算法 深度学习亦称深度机器学习.深度结构学习.分层学习,是一类有效训练深层神经网络(Deep Neural Network,DNN)的机器学习算法,可以用于对数据进行高层抽象建模.广义上说,深层神经网络是一种具有多个处理层的复杂结构,其中包含多重非线性变换.如果深度足够,那么多层感知器无疑是深层网络,前馈神经网络也是深层网络.基本的深层网络模型可以分为两大类:生成模型和判别模型.生成是指从隐含层到输入数据的重构过程,而判别是指从输入数据到隐含层的归约过程.复杂的深层结构可能

《深度学习导论及案例分析》-第1章 概述 1.1深度学习的起源和发展

第1章 概述 如何让机器从经验中学习长期以来都是哲学界和科学界的研究目标之一.学习能力对人类智能的形成和发展无疑起着至关重要的作用,而机器学习的研究显然有助于提高人工智能的水平.从原始的输入数据到产生意义的理解过程往往需要经过许多不同层次的信息处理.转换.表达和抽象,如果涉及的层次较深,深度学习的模型和方法就可能发挥重要作用.本章主要勾画深度学习的起源和发展.特点和优势.模型和算法. 1.1深度学习的起源和发展 作为一种实现人工智能的强大技术,深度学习(deep learning)已经在手写数字

《深度学习导论及案例分析》一2.13玻耳兹曼机的学习

2.13玻耳兹曼机的学习 在马尔可夫网络中,有一种称为玻耳兹曼机(Boltzmann Machine,BM)的特殊结构,如图2.16所示.玻耳兹曼机是一种由随机神经元全连接组成的神经 (顶层表示一个随机二值隐含特征,底层表示一个随机二值可视变量)网络模型,在结构上具有对称性和无自反馈的特点.玻耳兹曼机的神经元可以划分为两个层次,即可视层和隐含层.可视层的神经元称为可视节点,隐含层的神经元称为隐含节点.在标准玻耳兹曼机的情况下,每个节点不论是可视节点,还是隐含节点,都只取0或者1两种状态,其中1表

《深度学习导论及案例分析》一 第1章 概述1.1深度学习的起源和发展

第1章 概述 如何让机器从经验中学习长期以来都是哲学界和科学界的研究目标之一.学习能力对人类智能的形成和发展无疑起着至关重要的作用,而机器学习的研究显然有助于提高人工智能的水平.从原始的输入数据到产生意义的理解过程往往需要经过许多不同层次的信息处理.转换.表达和抽象,如果涉及的层次较深,深度学习的模型和方法就可能发挥重要作用.本章主要勾画深度学习的起源和发展.特点和优势.模型和算法. 1.1深度学习的起源和发展 作为一种实现人工智能的强大技术,深度学习(deep learning)已经在手写数字

深度学习导论及案例分析》一2.10概率图模型的学习

2.10概率图模型的学习 在给定一个关于随机向量X的数据样本集合S={x1,x2,-,xN}时,常常需要对X的概率分布进行建模.不妨假设S中的每个样本都是独立同分布的(independent and identically distributed,i.i.d),且都服从未知的真实联合概率分布P(X).学习概率图模型的任务可以描述为:给定样本集合S,返回一个对P(X)逼近最好的概率图模型.这种类型的学习称为生成学习(generative learning),其目标是对数据的生成过程进行建模.一般说

《深度学习导论及案例分析》一2.5概率有向图模型

2.5概率有向图模型 如果一组随机变量中存在因果关系,那么常常可以建立一个概率有向图模型来紧凑.自然地表达它们的联合概率分布.概率有向图模型又称为贝叶斯网络(Bayesian network).贝叶斯模型(Bayesian model).信念网络(belief network),是一种通过有向无圈图来表示随机变量及其条件依赖关系的概率图模型. 贝叶斯网络B是一个以随机变量为顶点,以边为条件依赖关系的有向无圈图G=(V,E),其联合概率分布可以进行如下因子分解: PB(X1,-,XN)=∏Ni=1

《深度学习导论及案例分析》一2.12马尔可夫链蒙特卡罗方法

2.12马尔可夫链蒙特卡罗方法 在统计学中,马尔可夫链蒙特卡罗方法是一类根据概率分布进行采样的方法,起源于物理学科[133].这类方法以构造一个马尔可夫链为基础,其期望分布(desired distribution)就是平衡分布(equilibrium distribution).极限分布(limiting distribution)或稳态分布(stationary disrtibution).经过若干步骤之后,马尔可夫链的状态便被用作期望分布的一个样本.样本的质量随着步骤数目的增加而不断提高,