模型选择、特征选择及贝叶斯正则化

1 问题

     模型选择问题:对于一个学习问题,可以有多种模型选择。比如要拟合一组样本点,可以使用线性回归,也可以用多项式回归。那么使用哪种模型好呢(能够在偏差和方差之间达到平衡最优)?

     还有一类参数选择问题:如果我们想使用带权值的回归模型,那么怎么选择权重w公式里的参数

形式化定义:假设可选的模型集合是,比如我们想分类,那么SVM、logistic回归、神经网络等模型都包含在M中。

2 交叉验证(Cross validation)

     我们的第一个任务就是要从M中选择最好的模型。

     假设训练集使用S来表示

     如果我们想使用经验风险最小化来度量模型的好坏,那么我们可以这样来选择模型:


1、 使用S来训练每一个,训练出参数后,也就可以得到假设函数。(比如,线性模型中得到后,也就得到了假设函数

2、 选择错误率最小的假设函数。

     遗憾的是这个算法不可行,比如我们需要拟合一些样本点,使用高阶的多项式回归肯定比线性回归错误率要小,偏差小,但是方差却很大,会过度拟合。因此,我们改进算法如下:


1、 从全部的训练数据S中随机选择70%的样例作为训练集,剩余的30%作为测试集

2、 在上训练每一个,得到假设函数

3、 在上测试每一个,得到相应的经验错误

4、 选择具有最小经验错误作为最佳模型。

     这种方法称为hold-out cross validation或者称为简单交叉验证。

     由于测试集是和训练集中是两个世界的,因此我们可以认为这里的经验错误接近于泛化错误(generalization error)。这里测试集的比例一般占全部数据的1/4-1/3。30%是典型值。

     还可以对模型作改进,当选出最佳的模型后,再在全部数据S上做一次训练,显然训练数据越多,模型参数越准确。

     简单交叉验证方法的弱点在于得到的最佳模型是在70%的训练数据上选出来的,不代表在全部训练数据上是最佳的。还有当训练数据本来就很少时,再分出测试集后,训练数据就太少了。

     我们对简单交叉验证方法再做一次改进,如下:


1、 将全部训练集S分成k个不相交的子集,假设S中的训练样例个数为m,那么每一个子集有m/k个训练样例,相应的子集称作{}。

2、 每次从模型集合M中拿出来一个,然后在训练子集中选择出k-1个

{}(也就是每次只留下一个),使用这k-1个子集训练后,得到假设函数。最后使用剩下的一份作测试,得到经验错误

3、 由于我们每次留下一个(j从1到k),因此会得到k个经验错误,那么对于一个,它的经验错误是这k个经验错误的平均。

4、 选出平均经验错误率最小的,然后使用全部的S再做一次训练,得到最后的

     这个方法称为k-fold cross validation(k-折叠交叉验证)。说白了,这个方法就是将简单交叉验证的测试集改为1/k,每个模型训练k次,测试k次,错误率为k次的平均。一般讲k取值为10。这样数据稀疏时基本上也能进行。显然,缺点就是训练和测试次数过多。

     极端情况下,k可以取值为m,意味着每次留一个样例做测试,这个称为leave-one-out cross validation。

如果我们发明了一种新的学习模型或者算法,那么可以使用交叉验证来对模型进行评价。比如在NLP中,我们将训练集中分出一部分训练,一部分做测试。

3 特征选择(Feature selection)

     特征选择严格来说也是模型选择中的一种。这里不去辨析他们的关系,重点说明问题。假设我们想对维度为n的样本点进行回归,然而,n可能大多以至于远远大于训练样例数m。但是我们感觉很多特征对于结果是无用的,想剔除n中的无用特征。n个特征就有种去除情况(每个特征去或者保留),如果我们枚举这些情况,然后利用交叉验证逐一考察在该情况下模型的错误率,太不现实。因此需要一些启发式搜索方法。

第一种,前向搜索:


1、 初始化特征集F为空。

2、 扫描i从1到n,

如果第i个特征不在F中,那么将特征i和F放在一起作为(即

在只使用中特征的情况下,利用交叉验证来得到的错误率。

3、 从上步中得到的n个中选出错误率最小的,更新F为

如果F中的特征数达到了n或者预设定的阈值(如果有的话),那么输出整个搜索过程中最好的F,没达到转到2

     前向搜索属于wrapper model feature selection。Wrapper这里指不断地使用不同的特征集来测试学习算法。前向搜索说白了就是每次增量地从剩余未选中的特征选出一个加入特征集中,待达到阈值或者n时,从所有的F中选出错误率最小的。

     既然有增量加,那么也会有增量减,后者称为后向搜索。先将F设置为{1,2,..,n},然后每次删除一个特征,并评价,直到达到阈值或者为空,然后选择最佳的F。

     这两种算法都可以工作,但是计算复杂度比较大。时间复杂度为

第二种,过滤特征选择(Filter feature selection):

     过滤特征选择方法的想法是针对每一个特征,i从1到n,计算相对于类别标签的信息量,得到n个结果,然后将n个按照从大到小排名,输出前k个特征。显然,这样复杂度大大降低,为O(n)。

     那么关键问题就是使用什么样的方法来度量,我们的目标是选取与y关联最密切的一些。而y和都是有概率分布的。因此我们想到使用互信息来度量,对于是离散值的情况更适用,不是离散值,将其转变为离散值,方法在第一篇《回归认识》中已经提到。

     互信息(Mutual information)公式:

     当是0/1离散值的时候,这个公式如上。很容易推广到是多个离散值的情况。

     这里的都是从训练集上得到的。

     若问这个MI公式如何得来,请看它的KL距离(Kullback-Leibler)表述:

     也就是说,MI衡量的是和y的独立性。如果它俩独立(),那么KL距离值为0,也就是说和y不相关了,可以去除。相反,如果两者密切相关,那么MI值会很大。在对MI进行排名后,最后剩余的问题就是如何选择k值(前k个)。我们继续使用交叉验证的方法,将k从1扫描到n,取最大的F。不过这次复杂度是线性的了。比如,在使用朴素贝叶斯分类文本的时候,词表长度n很大。使用filter特征选择方法,能够增加分类器的精度。

4 贝叶斯统计和规则化(Bayesian statistics and regularization)

     题目有点绕,说白了就是要找更好的估计方法来减少过度拟合情况的发生。

     回顾一下,线性回归中使用的估计方法是最小二乘法,logistic回归是条件概率的最大似然估计,朴素贝叶斯是联合概率的最大似然估计,SVM是二次规划。

     以前我们使用的估计方法是最大似然估计(比如在logistic回归中使用的):

     

     注意这里的最大似然估计与维基百科中的表述

       http://zh.wikipedia.org/wiki/%E6%9C%80%E5%A4%A7%E5%90%8E%E9%AA%8C%E6%A6%82%E7%8E%87

     有些出入,是因为维基百科只是将样本(观察数据)记为X,然后求P(X)的最大概率。然而,对于我们这里的样本而言,分为特征x和类标签y。我们需要具体计算P(X)。在判别模型(如logistic回归)中,我们看待P(X)=P(x,y)=P(y|x)P(x),而P(x)与独立无关,因此最后的argmax P(X)由argmaxP(y|x)决定,也就是上式。严格来讲并不等于样本X的概率,只是P(X)决定于最大化时P(X)也最大化。在生成模型,如朴素贝叶斯中,我们看待P(X)=P(y)P(x|y),也就是在某个类标签y下出现特征x的概率与先验概率之积。而P(x|y)在x各个分量是条件独立情况下可以以概率相乘方式计算出,这里根本没有参数。因此最大似然估计直接估计P(x,y)即可,变成了联合分布概率。

     在该上式中,我们视参数为未知的常数向量。我们的任务就是估计出未知的

     从大范围上说,最大似然估计看待的视角称为频率学派(frequentist statistics),认为不是随机变量,只是一个未知的常量,因此我们没有把写成

     另一种视角称为贝叶斯学派(Bayesian),他们看待为随机变量,值未知。既然为随机变量,那么不同的值就有了不同的概率(称为先验概率),代表我们对特定的的相信度。我们将训练集表示成,i从1到m。我们首先需要求出的后验概率:

     这个公式的推导其实比较蹊跷。第一步无可厚非,第二步中先看分子,分子中最完整的表达方式是。由于在分母中也会出现,所以会被约掉。当然作者压根就没有考虑,因为他看待P(S)的观点就是x->y,而不是(x,y)。再来看分母,分母写成这种形式后,意思是对所有的可能值做积分。括号里面的意思是,然后将其展开成分母的模样,从宏观上理解,就是在求每个样例的概率时,先以一定的概率确定,然后在的作用下再确定的概率。而如果让我推导这个公式,我可能会这样写分母,这样推导出的结果是。我不知道自己的想法对不对,分歧在于如何看待,作者是为每个样例都重新选定,而我是对总体样本选择一个

 

     在不同的模型下计算方式不同。比如在贝叶斯logistic回归中,

     

     其中,p的表现形式也就是伯努利分布了。

     在是随机变量的情况下,如果新来一个样例特征为x,那么为了预测y。我们可以使用下面的公式:

     

     由前面的公式得到。假若我们要求期望值的话,那么套用求期望的公式即可:

     

     大多数时候我们只需求得中最大的y即可(在y是离散值的情况下)。

     这次求解与之前的方式不同,以前是先求,然后直接预测,这次是对所有可能的作积分。

     再总结一下两者的区别,最大似然估计没有将视作y的估计参数,认为是一个常数,只是未知其值而已,比如我们经常使用常数c作为y=2x+c的后缀一样。但是的计算公式中含有未知数。所以再对极大似然估计求导后,可以求出

     而贝叶斯估计将视为随机变量,的值满足一定的分布,不是固定值,我们无法通过计算获得其值,只能在预测时计算积分。

     然而在上述贝叶斯估计方法中,虽然公式合理优美,但后验概率很难计算,看其公式知道计算分母时需要在所有的上作积分,然而对于一个高维的来说,枚举其所有的可能性太难了。

为了解决这个问题,我们需要改变思路。看公式中的分母,分母其实就是P(S),而我们就是要让P(S)在各种参数的影响下能够最大(这里只有参数)。因此我们只需求出随机变量中最可能的取值,这样求出后,可将视为固定值,那么预测时就不用积分了,而是直接像最大似然估计中求出后一样进行预测,这样就变成了点估计。这种方法称为最大后验概率估计(Maximum a posteriori)方法

     估计公式为

     

     一样表示的是P(S),意义是在从随机变量分布中以一定概率选定好后,在给定样本特征出现的概率积。

     但是如果让我推导这个公式的时候,我会这么做,考虑后验概率,我们的目标是求出最有可能的。而对于的所有值来说,分母是一样的,只有分子是不同的。因此。也就是的推导式。但这个公式与上面的有些不同,同样还是看待每个样本一个,还是总体样本一个的问题。

     与最大似然估计对比发现,MAP只是将移进了条件概率中,并且多了一项。一般情况下我们认为,实际上,贝叶斯最大后验概率估计相对于最大似然估计来说更容易克服过度拟合问题。我想原因是这样的,过度拟合一般是极大化造成的。而在此公式中多了一个参数,整个公式由两项组成,极大化时,不代表此时也能最大化。相反,是多值高斯分布,极大化时,概率反而可能比较小。因此,要达到最大化需要在两者之间达到平衡,也就靠近了偏差和方差线的交叉点。这个跟机器翻译里的噪声信道模型比较类似,由两个概率决定比有一个概率决定更靠谱。作者声称利用贝叶斯logistic回归(使用的logistic回归)应用于文本分类时,即使特征个数n远远大于样例个数m,也很有效。

时间: 2024-09-13 19:26:21

模型选择、特征选择及贝叶斯正则化的相关文章

贝叶斯模型构建分类器的设计与实现

0 引言      于半月前,针对文本分类进行学习,实验的目的是通过对下图1中的不同情感文本构建训练集模型,对应的下图2是对训练集的注释说明.类标0开头为喜悦类别,类标1开头的为愤怒类别,类别2开头的是厌恶类别,类别3开头的为低落类别.4个训练集文本,分别对应4个分类.如何通过训练集构造分类器,并对测试数据进行验证是本课题的最终目的.其中会涉及贝叶斯公式的理解与实现,文本的预处理(下图1中0_simplifyweibo的训练集是处理过的数据如下图),分词工具的使用,不同贝叶斯模型的构造,试验结果

【干货】用朴素贝叶斯进行文本分类

1.引言 贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来.因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口. 2. 贝叶斯公式 贝叶斯公式就一行: 而它其实是由以下的联合概率公式推导出来: P(Y,X)=P(Y|X)P(X)=P(X|Y)P(Y) 其中P(Y)叫做先验概率,P(Y|X)叫做后验概率,P(Y,X)叫做联合概率. 额,恩,没了,贝叶斯最核心的公式就这么些. 3. 用机器学习的视角理解贝叶斯

机器学习算法实践:朴素贝叶斯 (Naive Bayes)

前言 上一篇<机器学习算法实践:决策树 (Decision Tree)>总结了决策树的实现,本文中我将一步步实现一个朴素贝叶斯分类器,并采用SMS垃圾短信语料库中的数据进行模型训练,对垃圾短信进行过滤,在最后对分类的错误率进行了计算. 正文 与决策树分类和k近邻分类算法不同,贝叶斯分类主要借助概率论的知识来通过比较提供的数据属于每个类型的条件概率, 将他们分别计算出来然后预测具有最大条件概率的那个类别是最后的类别.当然样本越多我们统计的不同类型的特征值分布就越准确,使用此分布进行预测则会更加准

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推

用朴素贝叶斯模型预测柯南中被害人和凶手!

这个研究是我在一门课上的期末作业,旨在用一些广泛流传的<柯南>"规律"(比如毛利小五郎指出的凶手大多是好人)预测凶手和被害人,并定量地探索作者--青山刚昌--在创作角色时的一些"隐藏信念"(hidden belief).分析漫画的研究我并没有见过,不过还是有不少研究使用数学建模方法识别文学作品的作者 (Madigan, Genkin, Lewis, Argamon, Fradkin, & Ye, 2005; Zhao & Zobel, 2

[置顶]白话贝叶斯理论及在足球比赛结果预测中的应用和C#实现

  离去年"马尔可夫链进行彩票预测"已经一年了,同时我也计划了一个彩票数据框架的搭建,分析和预测的框架,会在今年逐步发表,拟定了一个目录,大家有什么样的意见和和问题,可以看看,留言我会在后面的文章中逐步改善:彩票数据框架与分析预测总目录.同时这篇文章也是"[彩票]彩票预测算法(一):离散型马尔可夫链模型C#实现"的兄弟篇.所以这篇文章还有一个标题,应该是:[彩票]彩票预测算法(二):朴素贝叶斯分类器在足球胜平负预测中的应用及C#实现 . 以前了解比较多的是SVM,R

机器学习算法集锦:从贝叶斯到深度学习及各自优缺点

选自static.coggle.it 机器之心编译  在我们日常生活中所用到的推荐系统.智能图片美化应用和聊天机器人等应用中,各种各样的机器学习和数据处理算法正尽职尽责地发挥着自己的功效.本文筛选并简单介绍了一些最常见算法类别,还为每一个类别列出了一些实际的算法并简单介绍了它们的优缺点. https://static.coggle.it/diagram/WHeBqDIrJRk-kDDY 目录 正则化算法(Regularization Algorithms) 集成算法(Ensemble Algor

基于朴素贝叶斯的定位算法

1 定位背景介绍       一说到定位大家都会想到gps,然而gps定位有首次定位缓慢(具体可以参考之前的博文<LBS定位技术>).室内不能使用.耗电等缺陷,这些缺陷大大限制了gps的使用.在大多数移动互联网应用例如google地图.百度地图等,往往基于wifi.基站来进行定位.        一般APP在请求定位的时候会上报探测到的wifi信号.基站信号.以wifi为例,手机会探测到周围各个wifi(mac地址)对应的信号强度(RSSI),即收集到信号向量(<WF1, RSSI1&g

从贝叶斯方法谈到贝叶斯网络

从贝叶斯方法谈到贝叶斯网络 0 引言     事实上,介绍贝叶斯定理.贝叶斯方法.贝叶斯推断的资料.书籍不少,比如<数理统计学简史>,以及<统计决策论及贝叶斯分析 James O.Berger著>等等,然介绍贝叶斯网络的中文资料则非常少,中文书籍总共也没几本,有的多是英文资料,但初学者一上来就扔给他一堆英文论文,因无基础和语言的障碍而读得异常吃力导致无法继续读下去则是非常可惜的(当然,有了一定的基础后,便可阅读更多的英文资料).     11月9日上午,机器学习班第9次课,邹博讲贝