《LDA漫游指南》——2.5 狄利克雷分布(Dirichlet Distribution)

2.5 狄利克雷分布(Dirichlet Distribution)

Dirichlet分布是Beta分布在多项情况下的推广,也是多项分布的共轭先验分布(共轭先验分布将在2.6节进行介绍)。Dirichlet分布的概率密度函数如下:

二项分布和多项分布很相似,Beta分布和Dirichlet 分布很相似,至于“Beta分布是二项式分布的共轭先验概率分布,而Dirichlet分布是多项式分布的共轭先验概率分布”这点会在下文中进行说明。

另一个重要的公式是

为了简便表达,公式中引入了希腊字母∆代表B函数的多项版本 。这个公式的结构和证明相似于上文中“β函数和gamma函数的关系——见式(2.6)”,这个证明留给读者来完成。从此,公式中凡是出现积分中连乘时,就要像巴甫洛夫试验中“流着口水的狗”一样警觉,建立起“可以换成gamma函数”的条件反射。

时间: 2024-08-07 13:05:32

《LDA漫游指南》——2.5 狄利克雷分布(Dirichlet Distribution)的相关文章

《LDA漫游指南》——第1章 背景

第1章 背景 LDA漫游指南 LDA算法使用的全部知识的渊源可以追溯到18世纪的欧拉.欧拉(Leonhard Euler ,1707年4月15日-1783年9月18日),瑞士数学家,如图1-1所示.欧拉一生贡献颇丰,1734年,欧拉因解决巴塞尔问题而出名,巴塞尔问题见式(1.1)的值是多少. (1.1) 这个问题困扰了数学家长达几个世纪的,当时的数学家只知道该级数的值小于2,但不知道精确值,欧拉准确的推导出该式的值等于π^2/6.欧拉的方法聪明而新颖,他创造性地将有限多项式的观察推广到无穷级数,

《LDA漫游指南》——第2章 前置知识

第2章 前置知识 LDA漫游指南 本章所描述的工具和线索在后期LDA算法的采样公式推导中会全部明了.关于为什么需要使用这些知识要素,这里面有很长的一段历史渊源,比如在概率论和数理统计中,gamma函数被广泛使用,而在最终的LDA采样公式中,你会发现,gamma函数被神奇地消失了.我们在后面的章节中可以看到,LDA算法的精妙之处在于用令人屏息的洞察力作为纽带,将零散的部件全部组合在一起. 2.1 gamma函数 所谓的gamma函数其实就是阶乘的函数形式,即n!=1⋅2⋅3-n.如果我问你3的阶乘

《LDA漫游指南》——2.6 共轭先验分布(conjugacy prior)

2.6 共轭先验分布(conjugacy prior) In Bayesian probability theory, if the posterior distributions p(θ |x) are in the same family as the prior probability distribution p(θ), the prior and posterior are then called conjugate distributions, and the prior is ca

《LDA漫游指南》——2.3 Beta分布(Beta distribution)

2.3 Beta分布(Beta distribution) 在概率论中,Beta分布是指一组定义在区间(0,1)的连续概率分布,有两个参数alpha 和beta ,且alpha ,beta > 0. Beta分布的概率密度函数是 (2.5) 随机变量X服从参数为的Beta分布通常写作:Xsim Beta(alpha ,beta ). 这个式子中分母的函数B(alpha ,beta )称为beta函数. 两种证明方法这里我们来证明一个重要的公式,该公式中的关系在LDA算法Gibbs Samplin

《LDA漫游指南》——2.4 多项分布(multinomial distribution)

2.4 多项分布(multinomial distribution) 多项分布[1]是二项分布的推广扩展,在n次独立试验中每次只输出k种结果中的一个,且每种结果都有一个确定的概率p.多项分布给出了在多种输出状态的情况下,关于成功次数的各种组合的概率. 举个例子,投掷n次骰子,这个骰子共有6种结果输出,且1点出现概率为p_1,2点出现概率p_2,--多项分布给出了在n次试验中,骰子1点出现x_1次,2点出现x_2次,3点出现x_3次,-,6点出现x_6次.这个结果组合的概率为 式(2.8)为多项分

《LDA漫游指南》——2.7 总结

2.7 总结 1. 贝叶斯学派采用给参数赋予先验分布,并使得先验与后验共轭,通过求后验均值来得到参数的估计,频率学派通过某个优化准则,比如最大化似然函数来求得参数的估计:不管是哪个学派思想,都要用到似然函数.注意到似然函数有所不同,这点在极大似然估计(MLE)和最大后验概率估计(MAP)体现得尤其明显. 2.当拥有无限数据量时(Beta分布式中的s和f都趋向于无穷,Dirichlet分布式中的m趋向于无穷),贝叶斯方法和频率学派方法所得到的参数估计是一致的.当在有限的数据量下,贝叶斯学派的参数后

《LDA漫游指南》——2.2 二项分布(Binomial distribution)

2.2 二项分布(Binomial distribution) 在概率论中,二项分布即重复n次独立的伯努利试验.在每次试验中只有两种可能的结果(成功/失败),每次成功的概率为p,而且两种结果发生与否互相对立,并且相互独立,与其他各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布就是伯努利分布. 在给出二项分布之前,我们来做一个例子,假设你在玩CS这个游戏,你拿着狙击枪,敌人出现,你打中敌人的概率是p,打不中敌人的概率是

用机器学习研究UFO目击报告!数据科学之魅:隐含狄利克雷分布

更多深度文章,请关注:https://yq.aliyun.com/cloud 本篇文章是讨论热门机器学习算法的文章合集中的一篇.如果你想了解更加详尽的背景知识以及我的写作初衷,请阅读这篇文章. 背景 隐含狄利克雷分布(LDA)算法曾被"提出"过两次,第一次提出是在2000年,用来根据遗传信息将人群划分至K个种族,到了2003年,LDA又一次被提出,用来在文本语料库中构建主题模型.而在本篇文章中,我将专注于主题建模部分的介绍.但是LDA在众多领域有着极为广泛的应用,遗传应用也是其中非常有

《计算机视觉:模型、学习和推理》一3.4 狄利克雷分布

3.4 狄利克雷分布 狄利克雷分布(见图3-4)定义在K个连续值λ1,-,λK上,其中λk∈[0,1],因此狄利克雷分布适合于定义分类分布中参数的分布.在K维空间中,狄利克雷分布有K个参数α1,-,αK,每个参数都取正值,参数的相对值决定期望值E[λ1],-,E[λk].参数的绝对值决定期望值两侧的集中程度.可以写成:也可以简写为正如伯克利分布是仅有两个输出结果的特殊分类分布一样,贝塔分布是一个二维的特殊狄利克雷分布.图3-4 根据λ1,λ2,-,λK值定义的一个K维的狄利克雷分布,其中∑kλk