Andrew Ng机器学习公开课笔记 -- Generative Learning algorithms

网易公开课,第5课 
notes,http://cs229.stanford.edu/notes/cs229-notes2.pdf

学习算法有两种,一种是前面一直看到的,直接对p(y|x; θ)进行建模,比如前面说的线性回归或逻辑回归,这种称为判别学习算法(discriminative learning algorithms)

另外一种思路,就是这里要谈的,称为生成学习算法(generative learning algorithms),区别在于不会直接对p(y|x; θ)进行建模,而是对p(x|y) (and p(y))进行建模,然后用bayes定理算出p(y|x) 
  
不像判别方法,给定x就能通过训练的模型算出结果 
比如逻辑回归中,通过 

而生成学习算法的思路是这样的,由于需要对p(x|y)进行建模,x是连续的,但对于分类问题y是离散的,比如取值0或1 
我们做的是,分别对每种y的情况进行建模,比如判断垃圾邮件,那么分别对垃圾和正常邮件进行建模,得到 
p(x|y = 0) models 和 p(x|y = 1) models 
而p(y) (called the class priors)往往是比较容易算出的 
当来一个新的x时,需要计算每个y的p(y|x),并且取概率最大的那个y 
这里由于只需要比较大小,p(x)对于大家都是一样的,不需要算

所以对于任意生成学习算法,关键就是要学习出 
p(x|y = 0) models 和 p(x|y = 1) models

 

Gaussian discriminant analysis

首先学习的一个生成算法就是GDA,高斯判别分析 
不解为何生成算法要叫判别。。。

多项高斯分布 
对于这个算法,首先要假设p(x|y)符合多项高斯分布(multivariate normal distribution),区别于一般的高斯分布,参数μ是一维的,而多项高斯分布参数是n维的 
 
其中, 
 ,mean vector,是个n维的向量 
 ,covariance matrix,是个n×n的矩阵 
关于这个分布,课件里面讲的很详细,还有很多图,参考课件吧 
其实只要知道这个分布也是一个bell-shape curve,μ会影响bell的位置(平移) 
而covariance matrix会影响bell的高矮,扁圆的形状

The Gaussian Discriminant Analysis model 
继续讲这个模型 
前面说了对于生成学习算法,关键就是要找出p(x|y = 0),p(x|y = 1)和p(y) 
  
好理解吗,y取值0或1,一定是伯努利分布,而p(x|y)根据前面假设一定是符合多项高斯分布,所以有 
 
现在问题是要根据训练集,学习出

怎么学?最大似然估计

 

这里和判别学习算法不同, 
判别学习算法,对p(y|x; θ)进行建模,所以称为conditional似然估计 
而生成学习算法,是对于p(x|y)*p(y),即p(x,y)进行建模,所以称为joint似然估计

使用最优化算法计算maximizing ℓ,得到参数如下(计算过程略去) 

虽然没有写计算过程,但是得到的这个结果是reasonable的 
φ就是y=1的概率,算出的结果就是在训练集中y=1的比例 
μ0,μ1,结果是训练集中y=0(或y=1)时x的均值,都很合理

计算出这些参数,我们就得到p(x|y = 0),p(x|y = 1)和p(y),然后可以使用上面的方法就行预测

Discussion: GDA and logistic regression 
这里有个很有趣的结论

We just argued that if p(x|y) is multivariate gaussian (with shared ), then p(y|x) necessarily follows a logistic function. The converse, however, is not true;

当p(x|y)满足multivariate gaussian的时候,p(y|x)一定是logistic function,但反之不成立。 
使用视频中的截图,更容易理解 
 
图中,叉表示y=0的点,圈表示y=1的点 
所以对于y=0和y=1分别建模,就得到两边的两个bell-shaped的高斯曲线 
这时如果要画出p(y=1|x),就得到中间的sigmod曲线 
越靠左y=1的概率越小,越靠右y=1的概率越接近1,在中间两个曲线交界的地方,y=1的概率为0.5 
非常形象的说明为什么p(y|x)会是一个logistic function

更酷的是,这个结论可以推广到任何指数族分布,即任何广义线性模型的分布

那么这里产生的问题就是,我们为什么需要GDA,直接使用逻辑回归不可以吗? 
两者区别在于, 
GDA比逻辑回归做出更强的假设,因为前面的结论是不可逆的 
所以当数据p(x|y)确实或近似符合高斯分布时,GDA更有效,并且需要更少的训练数据就可以达到很好的效果 
但是在实际中,其实你很难确定这点, 
这时逻辑回归有更好的鲁棒性,比如如果p(x|y)符合泊松分布,而你误认为符合高斯分布,而使用GDA,那么效果就会不太好 
而逻辑回归,对数据做出的假设比较少,只要p(x|y)指数族分布,都会有比较好的效果,当然逻辑回归需要的训练数据也是比较多的

这里其实就是一个balance 
模型假设强弱和训练数据量之间的权衡 
如果你明确知道符合高斯分布,那么用比较少的训练数据,使用GDA就很好 
如果不确定,就使用逻辑回归,用比较多的训练数据

本文章摘自博客园,原文发布日期:2014-04-08

时间: 2024-08-07 06:59:37

Andrew Ng机器学习公开课笔记 -- Generative Learning algorithms的相关文章

Andrew Ng机器学习公开课笔记–Reinforcement Learning and Control

网易公开课,第16课  notes,12 前面的supervised learning,对于一个指定的x可以明确告诉你,正确的y是什么  但某些sequential decision making问题,比如下棋或直升机自动驾驶  无法确切知道,下一步怎么样是正确的,因为这是一个连续和序列化的决策,比如直到最终直升机crash或下棋输了,你才知道之前的选择是不好的,但中间那么多步决策,到底是哪部分出了问题,可见这是个比较复杂的问题 强化学习,基本思路就是,既然不知道怎样是正确的,那就随便try,然

Andrew Ng机器学习公开课笔记 -- Online Learning

网易公开课,第11课  notes,http://cs229.stanford.edu/notes/cs229-notes6.pdf   和之前看到的batch learning算法不一样,batch learning一定是先用训练集进行训练,然后才进行预测 但是online learning,不必要一定有训练的过程,可以一边预测的同时一边训练 这个其实很现实,系统上线前也许很难收集到数据,并且数据也许也是在不断变化的 下面就用perceptron algorithm作为例子看看如何实现onli

Andrew Ng机器学习公开课笔记–Principal Components Analysis (PCA)

网易公开课,第14, 15课  notes,10 之前谈到的factor analysis,用EM算法找到潜在的因子变量,以达到降维的目的 这里介绍的是另外一种降维的方法,Principal Components Analysis (PCA), 比Factor Analysis更为直接,计算也简单些 参考,A Tutorial on Principal Component Analysis, Jonathon Shlens   主成分分析基于, 在现实中,对于高维的数据,其中有很多维都是扰动噪音

Andrew Ng机器学习公开课笔记 -- 学习理论

网易公开课,第9,10课  notes,http://cs229.stanford.edu/notes/cs229-notes4.pdf 这章要讨论的问题是,如何去评价和选择学习算法   Bias/variance tradeoff 还是用这组图,学习算法追求的是generalization error(对未知数据的预测误差),而不是training error(只是对训练集) 最左边,underfit,我们说这种学习算法有较大的bias  Informally, we define the b

Andrew Ng机器学习公开课笔记 -- 支持向量机

网易公开课,第6,7,8课  notes,http://cs229.stanford.edu/notes/cs229-notes3.pdf SVM-支持向量机算法概述, 这篇讲的挺好,可以参考   先继续前面对线性分类器的讨论,  通过机器学习算法找到的线性分类的线,不是唯一的,对于一个训练集一般都会有很多线可以把两类分开,这里的问题是我们需要找到best的那条线 首先需要定义Margin,  直观上来讲,best的那条线,应该是在可以正确分类的前提下,离所有的样本点越远越好,why?  因为越

Andrew Ng机器学习公开课笔记 -- Regularization and Model Selection

网易公开课,第10,11课  notes,http://cs229.stanford.edu/notes/cs229-notes5.pdf   Model Selection 首先需要解决的问题是,模型选择问题,如何来平衡bais和variance来自动选择模型?比如对于多项式分类,如何决定阶数k,对于locally weighted regression如何决定窗口大小,对于SVM如何决定参数C  For instance, we might be using a polynomial reg

Andrew Ng机器学习公开课笔记 -- Logistic Regression

网易公开课,第3,4课  notes,http://cs229.stanford.edu/notes/cs229-notes1.pdf 前面讨论了线性回归问题, 符合高斯分布,使用最小二乘来作为损失函数 下面继续讨论分类问题,分类问题和回归问题不同在于Y的取值是离散的  我们先讨论最简单的binary classification,即Y的取值只有0和1  分类问题一般不会使用回归模型,因为回归模型是输出是连续的,而分类问题需要的输出是离散的 但是一定要用也不是不可以,比如这里继续使用线性回归模型

Andrew Ng机器学习公开课笔记 -- 线性回归和梯度下降

网易公开课,监督学习应用.梯度下降  notes,http://cs229.stanford.edu/notes/cs229-notes1.pdf 线性回归(Linear Regression) 先看个例子,比如,想用面积和卧室个数来预测房屋的价格  训练集如下  首先,我们假设为线性模型,那么hypotheses定义为  , 其中x1,x2表示面积和#bedrooms两个feature  那么对于线性模型,更为通用的写法为   其中把θ和X看成向量,并且x0=1,就可以表示成最后那种,两个向量

Andrew Ng机器学习公开课笔记 – Factor Analysis

网易公开课,第13,14课  notes,9 本质上因子分析是一种降维算法  参考,http://www.douban.com/note/225942377/,浅谈主成分分析和因子分析 把大量的原始变量,浓缩成少数几个因子变量  原始变量,代表浅层的表面现象,所以一定是很多和繁杂的  而因子变量,是代表深层的本质,因,是无法直接观察到的 所以因子分析,就是拨开现象发现本质的过程...很牛逼的感觉 举个例子,观察一个学生,你可以统计到很多原始变量, 代数,几何,语文,英语各科的成绩,每天作业时间,