《深度学习导论及案例分析》一2.5概率有向图模型

2.5概率有向图模型

如果一组随机变量中存在因果关系,那么常常可以建立一个概率有向图模型来紧凑、自然地表达它们的联合概率分布。概率有向图模型又称为贝叶斯网络(Bayesian network)、贝叶斯模型(Bayesian model)、信念网络(belief network),是一种通过有向无圈图来表示随机变量及其条件依赖关系的概率图模型。

贝叶斯网络B是一个以随机变量为顶点,以边为条件依赖关系的有向无圈图G=(V,E),其联合概率分布可以进行如下因子分解:

PB(X1,…,XN)=∏Ni=1P(XiPaG(Xi))(2.55)

其中单个因子P(XiPaG=(Xi))称为条件概率分布(conditional probability distribution,CPD)或局部概率模型。这个因子分解的表达式也称为贝叶斯网的链式法则。例如,根据该法则,图2.1所示的贝叶斯网络的联合概率分布可以分解如下:

PB(X1,…,X7)=∏7i=1P(XiPaG(Xi))

=P(X1)P(X2X1)P(X3X2)P(X4X3)P(X5)P(X6X2,X5)P(X7X6)(2.56)

可以证明,贝叶斯网络的联合概率分布满足局部条件独立性(local conditional independencies)[104]。也就是说,一个贝叶斯网络的任意节点X与其所有非后代节点都条件独立于其父节点集,即
X⊥NonDescG(X)PaG(X)(2.57)
在一个贝叶斯网络中,任意一条由三个变量构成的迹XiXkXj,可能存在下面三种连接方式:

1)串行连接(serial connection)或链(chain),如图2.2所示。根据公式(2.55),图2.2a相应的联合分布为

PB(Xi,Xk,Xj)=P(Xi)P(XkXi)P(XjXk)(2.58)

因此,在给定Xk的条件下,Xi和Xj的联合概率为

PB(Xi,XjXk)=P(Xi)P(XkXi)P(Xi,Xk)P(XjXk)P(Xk)=P(XiXk)P(XjXk)(2.59)

这说明,在串行连接的情况下,Xi⊥XjXk。

注意,图2.2b为串行连接的另一种情况,有关推导是类似的。图2.2a的串行连接又称为Xi到Xj的因果路径,图2.2b的串行连接则又称为Xi到Xj的证据路径。

2)发散连接(diverging connection)或叉口(fork),表示Xi和Xj有共同的原因,如图2.3所示。根据公式(2.55),相应的联合分布为

PB(Xi,Xk,Xj)=P(Xk)P(XiXk)P(XjXk)(2.60)

因此,在给定Xk的条件下,Xi和Xj的联合概率为

PB(Xi,XjXk)=P(Xi,Xj,Xk)P(Xk)

=P(XiXk)P(XjXk)(2.61)

这说明,在发散连接的情况下,Xi⊥XjXk。
3)收敛连接(converging connection),又称倒叉口(inverted fork)、碰撞(collider)、v结构(vstructure),表示Xi和Xj有共同的效果,如图2.4所示。根据公式(2.55),相应的联合分布为
PB(Xi,Xk,Xj)=P(Xi)P(Xj)P(XkXi,Xj)(2.62)

∑xk∈val(Xk)P(Xk=xkXi,Xj)=1(2.63)

PB(Xi,Xj)=P(Xi)P(Xj)(2.64)
因此,变量Xi和Xj是先验独立的,即Xi⊥Xj。

但是,在给定Xk或其后代的条件下,Xi和Xj并不一定独立,也就是说可能有
PB(Xi,XjXk)≠P(XiXk)P(XjXk)(2.65)
这说明,在收敛连接的情况下,未必Xi⊥XjXk。

根据上述分析,在串行连接Xi→Xk→Xj和Xi←Xk←Xj以及发散连接Xi←Xk→Xj中,只有未观察到中心变量Xk时,Xi和Xj之间才可能产生有效的相互影响,否则它们就是相互独立的。而在收敛连接Xi→Xk←Xj中,只有观察到中心变量Xk时,Xi和Xj之间才可能产生有效的相互影响,否则它们就是相互独立的。在一个贝叶斯网络中,如果两个随机变量X和Y可能通过一条迹产生有效的相互影响,X和Y就不会是相互独立的,这条迹则称为有效迹。

在给定观测变量集Z的条件下,贝叶斯网络B的一条迹X1…Xn称为有效迹,如果对其中任意的收敛连接Xi-1→Xi←Xi+1都有Xi∈Z或DescB(Xi)∩Z≠,且该迹上的其他节点都不在Z中。

如果X、Y、Z是贝叶斯网络B的三个互不相交的节点子集,且在给定Z的条件下,对任意节点X∈X和Y∈Y之间都不存在有效迹,那么称X和Y在给定Z时是d分离(dseparation)的,或被Z d分离[105]。其中Z称为分离子集。d分离定理为:如果X与Y被Z d分离,那么在给定Z的条件下,X和Y一定是相互独立的[105]。这种条件独立性X⊥YZ称为贝叶斯网络的全局马尔可夫独立性(global Markov independencies)。

在图2.1中,如果令X={X1,X2},Y={X3,X4,X7},Z={X2,X6},那么可以验证X和Y被Z d分离。显然,在给定Z时,X和Y是相互独立的,即X⊥YZ。

此外,如果利用v结构的贝叶斯网来表达因果模型,有时可能出现解释消除(explaining away)现象。解释消除是指本来相互独立的多个原因在给定观察结果时,可能不再相互独立,而是变得相互依赖、相互影响,甚至一种原因的出现几乎可以排除另一种原因出现的可能。例如,一座高楼倒塌可能有两种本来相互独立的原因:自然地震或恐怖袭击。可是,在看到9•11美国世贸大厦被飞机撞击倒塌的视频之后,恐怖袭击便成为美国世贸大厦倒塌的直接解释,而这种解释几乎完全排除了自然地震作为解释的可能性。解释消除只是因果间推理(intercausal reasoning)的一个特例,而因果间推理在人类的推理中是非常普遍的模型。

下面通过一个具体例子说明解释消除现象。如图2.5所示,

用一个v结构的贝叶斯网络表示电池和燃料情况对油表的影响。这个贝叶斯网络由三个二值节点构成,分别是电池节点B(battery)、燃料节点F(fuel)、油表节点G(gauge)。B代表电池是否有电,B=1表示有电,B=0表示没电。F表示燃料(汽油)的情况,F=1表示油箱是满的,F=0表示油箱是空的。G表示油表的指示情况,G=1表示油表刻度指示油箱是满的,G=0表示油表刻度指示油箱为空。

假设已经知道了这个模型的有关概率为:p(B=1)=0.9,p(F=1)=0.9,p(G=1B=1,F=1)=0.8,p(G=1B=1,F=0)=0.2,p(G=1B=0,F=1)=0.2,p(G=1B=0,F=0)=0.1。

根据油表贝叶斯网络的结构,有:

p(B,F,G)=p(B)p(F)p(GB,F)(2.66)

于是,可以计算在观测到油表指示油箱为空的情况下,油箱确实空着的概率如下:

p(F=0G=0)=p(G=0F=0)p(F=0)p(G=0)(2.67)
其中,
p(G=0)=∑B∈{0,1}∑F∈{0,1}p(G=0B,F)p(B)p(F)(2.68)

p(G=0F=0)=∑B∈{0,1}p(G=0B,F=0)p(B)(2.69)
因此,
p(F=0G=0)=p(G=0F=0)p(F=0)p(G=0)0.257(2.70)

p(F=0G=0)=0.257>p(F=0)=0.1(2.71)

从以上结果可知,在观测到油表指示为空的情况下,油箱真为空的概率会比没有任何观测的情况大很多,这符合油表的常理作用。如果进一步考虑更复杂的情况,计算在同时观测到油表指示为空和油表的电池没电的情况下,油箱真为空的概率,那么不难通过公式推导得到:

p(F=0G=0,B=0)=p(G=0B=0,F=0)p(F=0)∑F∈{0,1}p(G=0B=0,F)0.111(2.72)
综合公式(2.43)和公式(2.44)这两种情况,可以得到如下不等式:
p(F=0)=0.1<p(F=0G=0,B=0)

=0.111<p(F=0G=0)=0.257(2.73
)```
时间: 2024-10-02 14:54:54

《深度学习导论及案例分析》一2.5概率有向图模型的相关文章

深度学习导论及案例分析》一2.10概率图模型的学习

2.10概率图模型的学习 在给定一个关于随机向量X的数据样本集合S={x1,x2,-,xN}时,常常需要对X的概率分布进行建模.不妨假设S中的每个样本都是独立同分布的(independent and identically distributed,i.i.d),且都服从未知的真实联合概率分布P(X).学习概率图模型的任务可以描述为:给定样本集合S,返回一个对P(X)逼近最好的概率图模型.这种类型的学习称为生成学习(generative learning),其目标是对数据的生成过程进行建模.一般说

《深度学习导论及案例分析》一2.11概率图模型的推理

2.11概率图模型的推理 如果已经知道了概率图模型的结构和参数,就可以进行有关的推理(inference).推理是指在给定观测结果时,评估变量的边际配置(marginal configuration)或最可能的配置(most likely configuration).为了这个目标,需要把随机变量集X划分成三个互不相交子集O.Q.H,即:X=O∪Q∪H O∩Q=O∩H=Q∩H=(2.106) 其中O代表观测节点集(或证据变量的集合),Q代表查询变量集,H指既不属于O,也不属于Q的节点集,也称为

《深度学习导论及案例分析》一第一部分 基 础 理 论

   本节书摘来自华章出版社<深度学习导论及案例分析>一书中的第1章,第1.1节,作者李玉鑑  张婷,更多章节内容可以访问"华章计算机"公众号查看. PART1 第一部分 基 础 理 论   本书第一部分主要探讨深度学习的基础理论.深度学习起源于神经网络,其本质是一系列深层网络模型的学习和训练算法.本部分涵盖了深度学习的主要内容,有助于读者在总体上把握深度学习的发展脉络和体系结构,是开展进一步相关工作的基础. 这部分共包括13章.第1章勾画深度学习的起源和发展.特点和优势.

《深度学习导论及案例分析》一3.2受限玻耳兹曼机的学习算法

本节书摘来自华章出版社<深度学习导论及案例分析>一书中的第3章,第3.2节,作者李玉鑑 张婷,更多章节内容可以访问"华章计算机"公众号查看. 3.2受限玻耳兹曼机的学习算法 受限玻耳兹曼机的学习就是对模型参数集θ进行计算,常用的方法是最大似然估计,其基本思想在于采用梯度上升算法最大化总体对数似然函数.在给定可视向量训练集S={v(l),1≤l≤N}时,受限玻耳兹曼机的对数似然函数定义为 lRBM(θ)=log∏Nl=1p(v(l)θ)=∑Nl=1logp(v(l)θ)(3.

《深度学习导论及案例分析》一第3章 受限玻耳兹曼机3.1 受限玻耳兹曼机的标准模型

第3章 受限玻耳兹曼机 受限玻耳兹曼机(Restricted Boltzmann Machines,RBM)是一种能够解释为随机神经网络的概率图模型,随着计算能力的增加和快速算法的发展已经广泛应用于解决相关的机器学习问题.由于受限玻耳兹曼机只具有两层结构,所以从严格意义上说并不是一种真正的深度学习模型.这种模型之所以受到关注,是因为它可以用作基本模块来构造自编码器.深层信念网络.深层玻耳兹曼机等许多其他深层学习模型.本章将从概率图模型的角度,分别讨论受限玻耳兹曼机的标准模型.学习算法.案例分析及

《深度学习导论及案例分析》-第1章 概述 1.1深度学习的起源和发展

第1章 概述 如何让机器从经验中学习长期以来都是哲学界和科学界的研究目标之一.学习能力对人类智能的形成和发展无疑起着至关重要的作用,而机器学习的研究显然有助于提高人工智能的水平.从原始的输入数据到产生意义的理解过程往往需要经过许多不同层次的信息处理.转换.表达和抽象,如果涉及的层次较深,深度学习的模型和方法就可能发挥重要作用.本章主要勾画深度学习的起源和发展.特点和优势.模型和算法. 1.1深度学习的起源和发展 作为一种实现人工智能的强大技术,深度学习(deep learning)已经在手写数字

《深度学习导论及案例分析》一 第1章 概述1.1深度学习的起源和发展

第1章 概述 如何让机器从经验中学习长期以来都是哲学界和科学界的研究目标之一.学习能力对人类智能的形成和发展无疑起着至关重要的作用,而机器学习的研究显然有助于提高人工智能的水平.从原始的输入数据到产生意义的理解过程往往需要经过许多不同层次的信息处理.转换.表达和抽象,如果涉及的层次较深,深度学习的模型和方法就可能发挥重要作用.本章主要勾画深度学习的起源和发展.特点和优势.模型和算法. 1.1深度学习的起源和发展 作为一种实现人工智能的强大技术,深度学习(deep learning)已经在手写数字

《深度学习导论及案例分析》一1.3深度学习的模型和算法

1.3深度学习的模型和算法 深度学习亦称深度机器学习.深度结构学习.分层学习,是一类有效训练深层神经网络(Deep Neural Network,DNN)的机器学习算法,可以用于对数据进行高层抽象建模.广义上说,深层神经网络是一种具有多个处理层的复杂结构,其中包含多重非线性变换.如果深度足够,那么多层感知器无疑是深层网络,前馈神经网络也是深层网络.基本的深层网络模型可以分为两大类:生成模型和判别模型.生成是指从隐含层到输入数据的重构过程,而判别是指从输入数据到隐含层的归约过程.复杂的深层结构可能

《深度学习导论及案例分析》一2.13玻耳兹曼机的学习

2.13玻耳兹曼机的学习 在马尔可夫网络中,有一种称为玻耳兹曼机(Boltzmann Machine,BM)的特殊结构,如图2.16所示.玻耳兹曼机是一种由随机神经元全连接组成的神经 (顶层表示一个随机二值隐含特征,底层表示一个随机二值可视变量)网络模型,在结构上具有对称性和无自反馈的特点.玻耳兹曼机的神经元可以划分为两个层次,即可视层和隐含层.可视层的神经元称为可视节点,隐含层的神经元称为隐含节点.在标准玻耳兹曼机的情况下,每个节点不论是可视节点,还是隐含节点,都只取0或者1两种状态,其中1表