《LDA漫游指南》——第1章 背景

第1章 背景

LDA漫游指南
LDA算法使用的全部知识的渊源可以追溯到18世纪的欧拉。欧拉(Leonhard Euler ,1707年4月15日—1783年9月18日),瑞士数学家,如图1-1所示。欧拉一生贡献颇丰,1734年,欧拉因解决巴塞尔问题而出名,巴塞尔问题见式(1.1)的值是多少。

(1.1)

这个问题困扰了数学家长达几个世纪的,当时的数学家只知道该级数的值小于2,但不知道精确值,欧拉准确的推导出该式的值等于π^2/6。欧拉的方法聪明而新颖,他创造性地将有限多项式的观察推广到无穷级数,并假设相同的性质对于无穷级数也是成立的:

(1.2)

欧拉最后的发现是令人惊奇的,π这个数字在与圆周率无关的场合中出现了,这足以说明数学与自然存在着某些神秘的联系。虽然以现代数学的眼光来看,欧拉的证明还不严密。但作为第一个(富有创造性的)证明,欧拉的这个证明永远有着其宝贵的价值。欧拉的另一个贡献就是发现了gamma函数f(x) = \Gamma (x)。该函数后被广泛应用于概率论,这个函数也是本文的主角之一。

作为算法标题之一的Dirichlet, wiki一下,一个19世纪的人映入了我们的眼帘。Dirichlet(1805—1859),德国数学家,生于现德国 Duren(当时属法国),卒于哥廷根,如图1-2所示。他是解析数论的奠基者,也是现代函数观念的定义者。在本文中该数学家的主要贡献是Dirichlet分布。

但是这还不是故事的全部,说到底19世纪的时候还没有发明计算机,LDA应该不是这哥们发明的,于是继续查找,最后查明改成哥伦比亚大学的David M.Blei(见图1-3)是最初LDA论文的作者。Blei同学借用了Dirichlet Distribution,而创造了Latent Dirichlet Allocation。

Blei以PLSA(LDA之前的另一个概率模型)为基础,加上了贝叶斯先验,从而发明了LDA算法。LDA算法最初的论文使用的是变分EM方法训练(Variational Inference)。该方法较为复杂,而且最后训练出的主题非全局最优分布,而是局部最优分布。后期发明了Collapsed Gibbs Sampling方法,推导和使用都较为简洁。Blei及其LDA算法具体介绍如下:

Latent Dirichlet Allocation是Blei等人于2003年提出的基于概率模型的主题模型算法。LDA是一种无监督机器学习技术,可以用来识别大规模文档集或语料库中的潜在隐藏的主题信息。该方法假设每个词是由背后的一个潜在隐藏的主题中抽取出来。

对于语料库中的每篇文档,LDA定义了如下生成过程(generative process):

(1)对每一篇文档,从主题分布中抽取一个主题。

(2)从上述被抽到的主题所对应的单词分布中抽取一个单词。

(3)重复上述过程直至遍历文档中的每一个单词。

LDA认为每篇文章是由多个主题混合而成的,而每个主题可以由多个词的概率表征。所以整个程序的输入和输出如表 1-1所示。

如果你想使用LDA算法,建议从Gibbs LDA++代码开始使用。在使用过程中,你就会发现该算法的使用方式还算简单,并且生成的结果文件也很规则,根据手册一看便懂。输入分词后的文件,一个文章一行,输出其中看到每个主题规则文件.twords如下格式所示。

时间: 2024-08-30 21:20:28

《LDA漫游指南》——第1章 背景的相关文章

《LDA漫游指南》——第2章 前置知识

第2章 前置知识 LDA漫游指南 本章所描述的工具和线索在后期LDA算法的采样公式推导中会全部明了.关于为什么需要使用这些知识要素,这里面有很长的一段历史渊源,比如在概率论和数理统计中,gamma函数被广泛使用,而在最终的LDA采样公式中,你会发现,gamma函数被神奇地消失了.我们在后面的章节中可以看到,LDA算法的精妙之处在于用令人屏息的洞察力作为纽带,将零散的部件全部组合在一起. 2.1 gamma函数 所谓的gamma函数其实就是阶乘的函数形式,即n!=1⋅2⋅3-n.如果我问你3的阶乘

《LDA漫游指南》——2.3 Beta分布(Beta distribution)

2.3 Beta分布(Beta distribution) 在概率论中,Beta分布是指一组定义在区间(0,1)的连续概率分布,有两个参数alpha 和beta ,且alpha ,beta > 0. Beta分布的概率密度函数是 (2.5) 随机变量X服从参数为的Beta分布通常写作:Xsim Beta(alpha ,beta ). 这个式子中分母的函数B(alpha ,beta )称为beta函数. 两种证明方法这里我们来证明一个重要的公式,该公式中的关系在LDA算法Gibbs Samplin

《LDA漫游指南》——2.6 共轭先验分布(conjugacy prior)

2.6 共轭先验分布(conjugacy prior) In Bayesian probability theory, if the posterior distributions p(θ |x) are in the same family as the prior probability distribution p(θ), the prior and posterior are then called conjugate distributions, and the prior is ca

《LDA漫游指南》——2.7 总结

2.7 总结 1. 贝叶斯学派采用给参数赋予先验分布,并使得先验与后验共轭,通过求后验均值来得到参数的估计,频率学派通过某个优化准则,比如最大化似然函数来求得参数的估计:不管是哪个学派思想,都要用到似然函数.注意到似然函数有所不同,这点在极大似然估计(MLE)和最大后验概率估计(MAP)体现得尤其明显. 2.当拥有无限数据量时(Beta分布式中的s和f都趋向于无穷,Dirichlet分布式中的m趋向于无穷),贝叶斯方法和频率学派方法所得到的参数估计是一致的.当在有限的数据量下,贝叶斯学派的参数后

《LDA漫游指南》——2.2 二项分布(Binomial distribution)

2.2 二项分布(Binomial distribution) 在概率论中,二项分布即重复n次独立的伯努利试验.在每次试验中只有两种可能的结果(成功/失败),每次成功的概率为p,而且两种结果发生与否互相对立,并且相互独立,与其他各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布就是伯努利分布. 在给出二项分布之前,我们来做一个例子,假设你在玩CS这个游戏,你拿着狙击枪,敌人出现,你打中敌人的概率是p,打不中敌人的概率是

《LDA漫游指南》——2.4 多项分布(multinomial distribution)

2.4 多项分布(multinomial distribution) 多项分布[1]是二项分布的推广扩展,在n次独立试验中每次只输出k种结果中的一个,且每种结果都有一个确定的概率p.多项分布给出了在多种输出状态的情况下,关于成功次数的各种组合的概率. 举个例子,投掷n次骰子,这个骰子共有6种结果输出,且1点出现概率为p_1,2点出现概率p_2,--多项分布给出了在n次试验中,骰子1点出现x_1次,2点出现x_2次,3点出现x_3次,-,6点出现x_6次.这个结果组合的概率为 式(2.8)为多项分

《LDA漫游指南》——2.5 狄利克雷分布(Dirichlet Distribution)

2.5 狄利克雷分布(Dirichlet Distribution) Dirichlet分布是Beta分布在多项情况下的推广,也是多项分布的共轭先验分布(共轭先验分布将在2.6节进行介绍).Dirichlet分布的概率密度函数如下: 二项分布和多项分布很相似,Beta分布和Dirichlet 分布很相似,至于"Beta分布是二项式分布的共轭先验概率分布,而Dirichlet分布是多项式分布的共轭先验概率分布"这点会在下文中进行说明. 另一个重要的公式是 为了简便表达,公式中引入了希腊字

《SQL学习指南(第2版)(修订版)》——第1章 背景知识

第1章 背景知识 SQL学习指南(第2版)(修订版)在我们开始学习本书的内容时,先了解一些数据库方面的基本概念及计算机数据存储和检索的发展史是十分有益的. 本文仅用于学习和交流目的,不代表异步社区观点.非商业转载请注明作译者.出处,并保留本文的原始链接.

Google Web App开发指南第三章:案例研究

旅程计划应用(Wayfindit: Trip Planner App) 在大多数情况下,Wayfindit的应用必须有很好的易用性.旅行是一件很复杂的事情,不管是商业旅行还是休假旅行,一个顺利的旅程要求从家门到目的都没有意外之忧.Wayfindit的应用要能给旅行者提供所需信息,并且要快而准确.这意味着它需要一个最小的.直观的.响应式界面,能在前端提供有关内容的重要信息--HTML5的地理感知和离线存储特性实现. 一个完美的袖珍指南 它就装在你的口袋里或者包里,即时提供信息.它拥有本地存储和地理