《LDA漫游指南》——2.4 多项分布(multinomial distribution)

2.4 多项分布(multinomial distribution)

多项分布[1]是二项分布的推广扩展,在n次独立试验中每次只输出k种结果中的一个,且每种结果都有一个确定的概率p。多项分布给出了在多种输出状态的情况下,关于成功次数的各种组合的概率。

举个例子,投掷n次骰子,这个骰子共有6种结果输出,且1点出现概率为p_1,2点出现概率p_2,……多项分布给出了在n次试验中,骰子1点出现x_1次,2点出现x_2次,3点出现x_3次,…,6点出现x_6次。这个结果组合的概率为

式(2.8)为多项分布的概率公式,注意在这个公式中,x_i为第i种状态的输出结果的频度,如果k=2,只有两种情况,此公式将退化为二项分布,所以二项分布是特殊情况下的多项分布。

也可以用gamma函数表示(这个写法的形式和Dirichlet分布相似):

下面通过一个例题加深对多项分布的印象:

问题
同时投掷5枚骰子,出现两对点数一样的概率是多少?
解:现在先把问题简化成特定投掷到2个一点,2个二点,1个三点的概率是多大?

X_1~X_6表示6个点的出现次数之和为5,则

先不考虑2,2,1三者顺序时共有left( {begin{array}{*{20}{c}}6\3end{array}} right)种取法;再考虑下2,2,1三者交换顺序有3种,因为两个2先后交换仍为2,2。

所以X_1~X_6,其中2个取2,1个取1的种类有3 cdot left( {begin{array}{*{20}{c}}6\3end{array}} right) = 60种。

最后的答案是,概率为60 cdot frac{5}{{1296}} = frac{{25}}{{108}}。

多项分布的极大似然估计
需要特别说明的是,“多项分布的似然函数”容易让读者困惑。这里特别说明一下,我们将多项分布的概率公式(2.8)重新写下来:

注意这个公式中的x_i种状态的输出结果的频度,其出现在指数部分,每个状态的可能性为p_1,p_2,…,p_k,且sumnolimits_{i = 1}^k {{p_i}} = 1 。在极大似然估计中,由于使用log形式的似然函数(log-likelihood),随后对其求导,获取似然函数的极值。在这个过程中,多项式系数作为常数项通常被无情地忽略了,我们做如下分析:

根据极大似然估计的原理,对于确定的n次试验结果,多项分布的似然函数满足:

接着使用log-likelihood技法:

引入拉格朗日乘数法(如果不了解拉格朗日乘数法,可参阅6.1.4节),则

紧接着对其按照参数p求导,前两项不含p,求导得0,被忽略,由此公式(2.8)多项式系数作为常数项就都被忽略了。

直观思考一下多项分布的极大似然估计,其实可想而知,就是数数x_i的个数,然后算一下占整个样本中的比例就可以作为p_i概率的估计了。所以通常在使用似然函数时,可以忽略其常数项—多项式系数。

时间: 2024-08-05 20:41:44

《LDA漫游指南》——2.4 多项分布(multinomial distribution)的相关文章

《LDA漫游指南》——第1章 背景

第1章 背景 LDA漫游指南 LDA算法使用的全部知识的渊源可以追溯到18世纪的欧拉.欧拉(Leonhard Euler ,1707年4月15日-1783年9月18日),瑞士数学家,如图1-1所示.欧拉一生贡献颇丰,1734年,欧拉因解决巴塞尔问题而出名,巴塞尔问题见式(1.1)的值是多少. (1.1) 这个问题困扰了数学家长达几个世纪的,当时的数学家只知道该级数的值小于2,但不知道精确值,欧拉准确的推导出该式的值等于π^2/6.欧拉的方法聪明而新颖,他创造性地将有限多项式的观察推广到无穷级数,

《LDA漫游指南》——第2章 前置知识

第2章 前置知识 LDA漫游指南 本章所描述的工具和线索在后期LDA算法的采样公式推导中会全部明了.关于为什么需要使用这些知识要素,这里面有很长的一段历史渊源,比如在概率论和数理统计中,gamma函数被广泛使用,而在最终的LDA采样公式中,你会发现,gamma函数被神奇地消失了.我们在后面的章节中可以看到,LDA算法的精妙之处在于用令人屏息的洞察力作为纽带,将零散的部件全部组合在一起. 2.1 gamma函数 所谓的gamma函数其实就是阶乘的函数形式,即n!=1⋅2⋅3-n.如果我问你3的阶乘

《LDA漫游指南》——2.3 Beta分布(Beta distribution)

2.3 Beta分布(Beta distribution) 在概率论中,Beta分布是指一组定义在区间(0,1)的连续概率分布,有两个参数alpha 和beta ,且alpha ,beta > 0. Beta分布的概率密度函数是 (2.5) 随机变量X服从参数为的Beta分布通常写作:Xsim Beta(alpha ,beta ). 这个式子中分母的函数B(alpha ,beta )称为beta函数. 两种证明方法这里我们来证明一个重要的公式,该公式中的关系在LDA算法Gibbs Samplin

《LDA漫游指南》——2.5 狄利克雷分布(Dirichlet Distribution)

2.5 狄利克雷分布(Dirichlet Distribution) Dirichlet分布是Beta分布在多项情况下的推广,也是多项分布的共轭先验分布(共轭先验分布将在2.6节进行介绍).Dirichlet分布的概率密度函数如下: 二项分布和多项分布很相似,Beta分布和Dirichlet 分布很相似,至于"Beta分布是二项式分布的共轭先验概率分布,而Dirichlet分布是多项式分布的共轭先验概率分布"这点会在下文中进行说明. 另一个重要的公式是 为了简便表达,公式中引入了希腊字

《LDA漫游指南》——2.2 二项分布(Binomial distribution)

2.2 二项分布(Binomial distribution) 在概率论中,二项分布即重复n次独立的伯努利试验.在每次试验中只有两种可能的结果(成功/失败),每次成功的概率为p,而且两种结果发生与否互相对立,并且相互独立,与其他各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布就是伯努利分布. 在给出二项分布之前,我们来做一个例子,假设你在玩CS这个游戏,你拿着狙击枪,敌人出现,你打中敌人的概率是p,打不中敌人的概率是

《LDA漫游指南》——2.6 共轭先验分布(conjugacy prior)

2.6 共轭先验分布(conjugacy prior) In Bayesian probability theory, if the posterior distributions p(θ |x) are in the same family as the prior probability distribution p(θ), the prior and posterior are then called conjugate distributions, and the prior is ca

《LDA漫游指南》——2.7 总结

2.7 总结 1. 贝叶斯学派采用给参数赋予先验分布,并使得先验与后验共轭,通过求后验均值来得到参数的估计,频率学派通过某个优化准则,比如最大化似然函数来求得参数的估计:不管是哪个学派思想,都要用到似然函数.注意到似然函数有所不同,这点在极大似然估计(MLE)和最大后验概率估计(MAP)体现得尤其明显. 2.当拥有无限数据量时(Beta分布式中的s和f都趋向于无穷,Dirichlet分布式中的m趋向于无穷),贝叶斯方法和频率学派方法所得到的参数估计是一致的.当在有限的数据量下,贝叶斯学派的参数后

[python] LDA处理文档主题分布代码入门笔记

以前只知道LDA是个好东西,但自己并没有真正去使用过.同时,关于它的文章也非常之多,推荐大家阅读书籍<LDA漫游指南>,最近自己在学习文档主题分布和实体对齐中也尝试使用LDA进行简单的实验.这篇文章主要是讲述Python下LDA的基础用法,希望对大家有所帮助.如果文章中有错误或不足之处,还请海涵~ 一. 下载安装 LDA推荐下载地址包括:其中前三个比较常用.        gensim下载地址:https://radimrehurek.com/gensim/models/ldamodel.ht

KDD 2017 参会报告

本次参会报告由技术发展部黑屏:阿里云飞天一部杰铭.布晓.吴双:阿里妈妈产品技术部永叔.怀人:集团安全部裕宏等同学一起撰写.希望大家积极交流,踊跃发表看法. 一 背景:(杰铭) KDD的全称是ACM SIGKDD Conference on Knowledge Discovery and Data Mining.SIGKDD是ACM在数据挖掘领域的顶级学术会议,每年都吸引着超过2000位来自世界各地的顶级数据挖掘学者,以及知名企业代表前来参加.然而,大会的论文接收每年却仅约200篇,接收率不超过1