《深度学习导论及案例分析》一2.11概率图模型的推理

2.11概率图模型的推理

如果已经知道了概率图模型的结构和参数,就可以进行有关的推理(inference)。推理是指在给定观测结果时,评估变量的边际配置(marginal configuration)或最可能的配置(most likely configuration)。为了这个目标,需要把随机变量集X划分成三个互不相交子集O、Q、H,即:
X=O∪Q∪H

O∩Q=O∩H=Q∩H=(2.106)

其中O代表观测节点集(或证据变量的集合),Q代表查询变量集,H指既不属于O,也不属于Q的节点集,也称为潜在变量集或隐含变量集。注意,它们的联合概率分布p(Q,H,O)是一种生成模型,条件概率分布p(Q,HO)则是一种判别模型。

推理有两种基本类型[119]:边际分布查询(marginalization query)和最大后验查询(maximum aposteriori query)。边际分布查询是在给定观察O的条件下,推理查询变量的边际分布,即计算:

P(QO=o)=P(Q,O=o)P(O=o)(2.107)

其中,

P(Q,O=o)=∑h∈val(H)P(Q,O=o,h)(2.108)

P(O=o)=∑q∈val(Q)P(Q=q,O=o)(2.109)

最大后验查询是在给定某些证据的条件下,确定查询变量的最可能初值,即计算:

q*=arg maxq∈val(Q)P(Q=qO=o)

=arg maxq∈val(Q)∑h∈val(H)P(Q=q,H=hO=o)

=arg maxq∈val(Q)∑h∈val(H)P(Q=q,H=h,O=o)(2.110)

由于对概率图模型进行精确推理的计算复杂性会随着最大团的大小指数增加,所以在规模较大且连接紧密的概率图模型中实现精确推理是难解的,因此进行近似推理非常必要。

近似推理有三种基本策略[120]:变分方法(variational method)、消息传递(message passing)和采样方法(sampling method)。

变分方法的基本思想是在假定H=的前提下,用一个易于处理的替代分布g(Q)对后验概率分布P(QO)进行近似。P(O)的对数形式可以分解如下:

logP(O)=∑qg(q)logP(O,q)g(q)LB(g)+-∑qg(q)logP(qO)g(q)KL(qP)(2.111)

其中KL(gP)≥0表示g(Q)和P(QO)之间的KL散度,且根据杰森不等式[115],LB(g)是logP(O)的一个下界,即

logP(O)=log∑qP(q,O)=log∑qg(q)P(q,O)g(q)≥∑qg(q)logP(q,O)g(q)=LB(g)(2.112)

因为logP(O)不依赖于g(q)和LB(g),且KL(gP)是非负的,所以最大化LB(g)等价于最小化KL(gP)。这意味着,关于g(q)最大化LB(g)就可以得到对后验概率分布P(QO)的最好近似。

在变分方法中,g(Q)通常被限制为简单的可计算分布。比如,平均场近似(meanfield approxiamtion)是一种变分方法,最简单的情况要求g(Q)具有如下可分解的形式:

g(Q)=∏Qi=1gi(Qi)(2.113)

消息传递算法在树结构的概率图模型上能够给出精确的推理结果,但是在带环或圈的任意图上并不能保证收敛性。而且即使收敛,得到的结果也可能只是精确解的近似。不过,令人吃惊的是,环状图上的消息传递常常收敛到稳定的后验或边际概率。最重要的突破在于发现对某些图结构来说,消息传递算法的不动点(fixed point)实际上就是贝蒂自由能(bethe free energy)的驻点(stationary point)[104]。这个发现澄清了消息传递的本质,建立了与大量物理文献的联系,并发展了广义信念传播算法(Generalized Belief Propagation Algorithm,GBP)。广义信念传播算法在节点区域上运行,同时在节点区域之间传递消息。环状信念传播算法(loopy belief propagation algorithm)的收敛性在许多应用中也得到了实验证实[122],并有大量相关的理论研究[123125]。

采样方法是从计算可行角度,通过蒙特卡罗程序(Monte Carlo procedure)计算兴趣量(quantities of interest)。最简单的情况是重要性采样(importance sampling)[126]和采样重要性重采样(sampling importance resampling)[127],用于估计函数的期望。在高维样本空间中,重要性采样存在很大的局限性。但是,马尔可夫链蒙特卡罗(Markov Chain Monte Carlo,MCMC)方法在各种不同维数的空间都能取得良好效果[128,129],其特殊情况是MH算法(MetropolisHastings algorithm)[130]和吉布斯采样(Gibbs sampling)[131]。蒙特卡罗方法最主要的应用之一就是通过序列重要性采样(sequential importance sampling)建立非线性、非高斯粒子滤波器(particle filter)[132],其中后验分布用一组粒子(样本)表示。这种粒子滤波器推广了传统的线性高斯卡曼滤波器(Kalman filter),在性能上优于经典的粒子滤波器。

时间: 2024-11-10 00:50:00

《深度学习导论及案例分析》一2.11概率图模型的推理的相关文章

《深度学习导论及案例分析》一第一部分 基 础 理 论

   本节书摘来自华章出版社<深度学习导论及案例分析>一书中的第1章,第1.1节,作者李玉鑑  张婷,更多章节内容可以访问"华章计算机"公众号查看. PART1 第一部分 基 础 理 论   本书第一部分主要探讨深度学习的基础理论.深度学习起源于神经网络,其本质是一系列深层网络模型的学习和训练算法.本部分涵盖了深度学习的主要内容,有助于读者在总体上把握深度学习的发展脉络和体系结构,是开展进一步相关工作的基础. 这部分共包括13章.第1章勾画深度学习的起源和发展.特点和优势.

《深度学习导论及案例分析》一3.2受限玻耳兹曼机的学习算法

本节书摘来自华章出版社<深度学习导论及案例分析>一书中的第3章,第3.2节,作者李玉鑑 张婷,更多章节内容可以访问"华章计算机"公众号查看. 3.2受限玻耳兹曼机的学习算法 受限玻耳兹曼机的学习就是对模型参数集θ进行计算,常用的方法是最大似然估计,其基本思想在于采用梯度上升算法最大化总体对数似然函数.在给定可视向量训练集S={v(l),1≤l≤N}时,受限玻耳兹曼机的对数似然函数定义为 lRBM(θ)=log∏Nl=1p(v(l)θ)=∑Nl=1logp(v(l)θ)(3.

《深度学习导论及案例分析》一第3章 受限玻耳兹曼机3.1 受限玻耳兹曼机的标准模型

第3章 受限玻耳兹曼机 受限玻耳兹曼机(Restricted Boltzmann Machines,RBM)是一种能够解释为随机神经网络的概率图模型,随着计算能力的增加和快速算法的发展已经广泛应用于解决相关的机器学习问题.由于受限玻耳兹曼机只具有两层结构,所以从严格意义上说并不是一种真正的深度学习模型.这种模型之所以受到关注,是因为它可以用作基本模块来构造自编码器.深层信念网络.深层玻耳兹曼机等许多其他深层学习模型.本章将从概率图模型的角度,分别讨论受限玻耳兹曼机的标准模型.学习算法.案例分析及

《深度学习导论及案例分析》一1.3深度学习的模型和算法

1.3深度学习的模型和算法 深度学习亦称深度机器学习.深度结构学习.分层学习,是一类有效训练深层神经网络(Deep Neural Network,DNN)的机器学习算法,可以用于对数据进行高层抽象建模.广义上说,深层神经网络是一种具有多个处理层的复杂结构,其中包含多重非线性变换.如果深度足够,那么多层感知器无疑是深层网络,前馈神经网络也是深层网络.基本的深层网络模型可以分为两大类:生成模型和判别模型.生成是指从隐含层到输入数据的重构过程,而判别是指从输入数据到隐含层的归约过程.复杂的深层结构可能

《深度学习导论及案例分析》-第1章 概述 1.1深度学习的起源和发展

第1章 概述 如何让机器从经验中学习长期以来都是哲学界和科学界的研究目标之一.学习能力对人类智能的形成和发展无疑起着至关重要的作用,而机器学习的研究显然有助于提高人工智能的水平.从原始的输入数据到产生意义的理解过程往往需要经过许多不同层次的信息处理.转换.表达和抽象,如果涉及的层次较深,深度学习的模型和方法就可能发挥重要作用.本章主要勾画深度学习的起源和发展.特点和优势.模型和算法. 1.1深度学习的起源和发展 作为一种实现人工智能的强大技术,深度学习(deep learning)已经在手写数字

《深度学习导论及案例分析》一2.13玻耳兹曼机的学习

2.13玻耳兹曼机的学习 在马尔可夫网络中,有一种称为玻耳兹曼机(Boltzmann Machine,BM)的特殊结构,如图2.16所示.玻耳兹曼机是一种由随机神经元全连接组成的神经 (顶层表示一个随机二值隐含特征,底层表示一个随机二值可视变量)网络模型,在结构上具有对称性和无自反馈的特点.玻耳兹曼机的神经元可以划分为两个层次,即可视层和隐含层.可视层的神经元称为可视节点,隐含层的神经元称为隐含节点.在标准玻耳兹曼机的情况下,每个节点不论是可视节点,还是隐含节点,都只取0或者1两种状态,其中1表

《深度学习导论及案例分析》一 第1章 概述1.1深度学习的起源和发展

第1章 概述 如何让机器从经验中学习长期以来都是哲学界和科学界的研究目标之一.学习能力对人类智能的形成和发展无疑起着至关重要的作用,而机器学习的研究显然有助于提高人工智能的水平.从原始的输入数据到产生意义的理解过程往往需要经过许多不同层次的信息处理.转换.表达和抽象,如果涉及的层次较深,深度学习的模型和方法就可能发挥重要作用.本章主要勾画深度学习的起源和发展.特点和优势.模型和算法. 1.1深度学习的起源和发展 作为一种实现人工智能的强大技术,深度学习(deep learning)已经在手写数字

深度学习导论及案例分析》一2.10概率图模型的学习

2.10概率图模型的学习 在给定一个关于随机向量X的数据样本集合S={x1,x2,-,xN}时,常常需要对X的概率分布进行建模.不妨假设S中的每个样本都是独立同分布的(independent and identically distributed,i.i.d),且都服从未知的真实联合概率分布P(X).学习概率图模型的任务可以描述为:给定样本集合S,返回一个对P(X)逼近最好的概率图模型.这种类型的学习称为生成学习(generative learning),其目标是对数据的生成过程进行建模.一般说

《深度学习导论及案例分析》一2.5概率有向图模型

2.5概率有向图模型 如果一组随机变量中存在因果关系,那么常常可以建立一个概率有向图模型来紧凑.自然地表达它们的联合概率分布.概率有向图模型又称为贝叶斯网络(Bayesian network).贝叶斯模型(Bayesian model).信念网络(belief network),是一种通过有向无圈图来表示随机变量及其条件依赖关系的概率图模型. 贝叶斯网络B是一个以随机变量为顶点,以边为条件依赖关系的有向无圈图G=(V,E),其联合概率分布可以进行如下因子分解: PB(X1,-,XN)=∏Ni=1

《深度学习导论及案例分析》一2.12马尔可夫链蒙特卡罗方法

2.12马尔可夫链蒙特卡罗方法 在统计学中,马尔可夫链蒙特卡罗方法是一类根据概率分布进行采样的方法,起源于物理学科[133].这类方法以构造一个马尔可夫链为基础,其期望分布(desired distribution)就是平衡分布(equilibrium distribution).极限分布(limiting distribution)或稳态分布(stationary disrtibution).经过若干步骤之后,马尔可夫链的状态便被用作期望分布的一个样本.样本的质量随着步骤数目的增加而不断提高,