《Mahout算法解析与案例实战》一一1.2 Mahout算法库

1.2 Mahout算法库

Mahout自从2008年兴起以来,发展迅速,从最开始的只有推荐系统到现在的多个算法模块,涵盖了很多行业。这些模块有聚类算法、分类算法、协同过滤算法和频繁项集挖掘算法,每个模块都含有一个或者几个不同的实现算法,下面分别进行介绍。
1.2.1 聚类算法
中国有句古谚语“物以类聚,人以群分”。一个聚类即是一类物体的集合,集合中的个体是相似的,不同聚类中的个体是不相似的。聚类的二维图如图1-1所示。

图1-1 聚类二维图
针对上面的数据,我们可以很容易地把它们分为右边阴影中的3类,这里的分类依据是不同点之间的距离:对于两个或者多个数据点,当它们之间的距离达到一定程度的时候,我们就把它们分为一个类,采用这种方式的聚类称做基于几何距离的聚类。
可以看到,聚类的目的就是把一组无标签的数据加上标签。那么,如何去评价一个模型的好坏?如何去评判一个模型把一组无标签的数据“完美地”贴上了标签呢?事实上,没有一个绝对的标准来衡量这些模型算法,所以,一般都是用户根据自己的需要评测一个模型的好坏,而且还要求模型的参数要根据用户的不同数据加以调整以适应具体的情况。
Mahout算法库中聚类模块包含的算法有:Canopy、K-Means、Fuzzy K-Means、Mean Shift、Hierarchical、Spectral、Minhash、Top Down,其中在小括号中标注“开发中”的算法其编写还不是很完善。下面对这些算法分别进行简要分析。
(1)Canopy算法
Canopy算法是一种非常简单、快速的聚类方法。Canopy算法经常用于其他聚类算法的初始步骤,比如K-Means算法等。
(2)K-Means算法
K-Means算法是一种相对简单但是广为人知的聚类算法,一般聚类问题都可以使用聚类算法。在Mahout中,该算法在每次循环时都会新建一个任务,对于算法来说,增加了很多外部消耗。
(3)Fuzzy K-Means
Fuzzy K-Means是K-means的扩展,是一种比较简单且流行的聚类方法。相比于K-Means聚类方法用于发现严格的聚类中心(即一个数据点只属于一个聚类中心),Fuzzy K-Means聚类方法用于发现松散的聚类中心(即一个数据点可能属于几个聚类中心)。
(4)Mean Shift算法
Mean Shift 算法最开始应用于图像平滑、图像分割和跟踪方面,在1995年一篇重要的文献发表后,Mean Shift才被大家所了解。Mean Shift算法比较吸引人的地方是该算法不需要提前知道要聚类的类别数(K-Means算法就需要),并且该算法形成的聚类形状是任意的且与要聚类的数据是相关的。
(5)Spectral算法
Spectral算法相对于K-Means算法来说更加有效和专业化,它是处理图像谱分类的一种有效的算法,主要针对的数据也是图像数据。
(6)Minhash算法
Minhash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。对于传统hash算法产生的两个签名,如果相等,说明原始内容在一定概率下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节,所产生的签名也很可能差别极大。从这个意义上来说,要设计一个hash算法,使相似的内容产生的签名也相近,是更为艰难的任务,因为它的签名值除了提供原始内容是否相等的信息外,还能额外提供不相等的原始内容的差异程度的信息。
(7)Top Down算法
Top Down算法是分层聚类的一种,它首先寻找比较大的聚类中心,然后对这些中心进行细粒度分类。
1.2.2 分类算法
分类是一种基于训练样本数据(这些数据都已经被贴标签)区分另外的样本数据标签的过程,即另外的样本数据应该如何贴标签的问题。举一个简单的例子,现在有一批人的血型已经被确定,并且每个人都有M个指标来描述这个人,那么这批人的M个指标数据就是训练样本数据,根据这些训练样本数据,建立分类器(即运用分类算法得到一些规则),然后使用分类器对测试样本集中的未被贴标签的数据进行血型判断。分类算法和聚类算法的不同之处在于,分类是有指导的学习,而聚类是一种无指导的学习。有指导和无指导其实是指在训练的时候训练样本数据是否提前被贴上了标签。图1-2为分类算法的一般过程。

图1-2 分类算法一般过程
Mahout算法库中分类模块包含的算法有:Logistic Regression、Bayesian、Support Vector Machine、Random Forests、Hidden Markov Models。
(1)Logistic Regression
Logistic Regression是一种利用预测变量(预测变量可以是数值型,也可以是离散型)来预测事件出现概率的模型。其主要应用于生产欺诈检测、广告质量估计,以及定位产品预测等。在Mahout中主要使用随机梯度下降(Stochastic Gradient Decent,SGD)思想来实现该算法。
(2)Bayesian
通常,事件A在事件B发生的条件下的概率,与事件B在事件A发生的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯(Bayesian)定理就是这种关系的陈述。通过联系事件A与事件B,计算从一个事件产生另一事件的概率,即从结果上溯源。
在Mahout中,目前已经有两种实现的贝叶斯分类器了,其中一种是朴素贝叶斯算法,另外一种是互补型的朴素贝叶斯算法。
(3)Support Vector Machine
Support Vector Machine(支持向量机)属于一般化线性分类器,也可以认为是提克洛夫规范化(Tikhonov Regularization)方法的一个特例。这种分类器的特点是它能够同时最小化经验误差与最大化几何边缘区,因此支持向量机也称为最大边缘区分类器。
(4)Random Forests
Random Forests(随机森林)是一个包含多个决策树的分类器,并且其输出的类别由个别树输出的类别的众数而定。这里的众数是指个别树输出类别重复最多的一个类别数值。随机森林算法在决策树的基础上发展而来,继承了决策树的优点,同时弱化了决策树的缺点。
(5)Hidden Markov Models
Hidden Markov Models(隐马尔科夫模型)主要用在机器学习上,比如语音识别、手写识别及自然语音处理等。隐马尔科夫模型是一个包含两个随机变量O和Y(O和Y可以按照顺序改变它们自身的状态)的分析模型。其中,变量Y是隐含变量,包含{y_1,…,y_n}个状态,其状态不能被直接检测出来。变量Y的状态按照一定的顺序改变,其状态改变的概率只与当前状态有关而不随时间改变。变量O称为可观察变量,包含{o_1,…,o_m}个状态,其状态可以被直接检测出来。变量O的状态与当前变量Y的状态有关。
1.2.3 协同过滤算法
协同过滤算法也可以称为推荐算法。在Mahout算法库中,主要包括:Distributed Item-Based Collaborative Filtering、Collaborative Filtering using a parallel matrix factorization,下面进行简要分析。
(1)Distributed Item-Based Collaborative Filtering
Distributed Item-Based Collaborative Filtering是基于项目的协同过滤算法,其简单思想就是利用项目之间的相似度来为用户进行项目推荐。项目之间的相似度通过不同用户对该项目的评分来求出,每个项目都有一个用户向量,两个项目之间的相似度便是根据这个用户向量求得的。求得项目之间的相似度,便可以针对用户对项目的评分清单来推荐与清单中极为相似的项目。
(2)Collaborative Filtering using a parallel matrix factorization
Collaborative Filtering using a parallel matrix factorization在Mahout的介绍中是以Collaborative Filtering with ALS-WR的名称出现的。该算法最核心的思想就是把所有的用户以及项目想象成一个二维表格,该表格中有数据的单元格(i,j),便是第i个用户对第j个项目的评分,然后利用该算法使用表格中有数据的单元格来预测为空的单元格。预测得到的数据即为用户对项目的评分,然后按照预测的项目评分从高到低排序,便可以进行推荐了。
1.2.4 频繁项集挖掘算法
在Mahout算法库中,频繁项集挖掘算法主要是指FP树关联规则算法。传统关联规则算法是根据数据集建立FP树,然后对FP树进行挖掘,得到数据库的频繁项集。在Mahout中实现并行FP树关联规则算法的主要思路是按照一定的规则把数据集分开,然后在每个分开的部分数据集建立FP树,然后再对FP树进行挖掘,得到频繁项集。这里使用的是把数据集分开的规则,可以保证最后通过所有FP树挖掘出来的频繁项集全部加起来没有遗漏,但是会有少量重叠。

时间: 2024-12-29 08:57:49

《Mahout算法解析与案例实战》一一1.2 Mahout算法库的相关文章

《Mahout算法解析与案例实战》一一3.3 Mean Shift算法

3.3 Mean Shift算法 3.3.1 Mean Shift算法简介 Mean Shift算法,中文可以翻译为均值偏移或均值漂移,最早是由Fukunaga在1975年发表的<The Estimation of the Gradient of a Density Function, with Application in Pattern Recognition>中被提出来,这是一篇关于概率密度梯度函数的论文.Mean Shift最开始的意思是偏移的均值向量,它是一种无参的估计方法,沿着概率

《Mahout算法解析与案例实战》一一

3.1 Canopy算法 3.1.1 Canopy算法简介在生活中,我们可以使用聚类解决很多问题,就像本章开始提到的几个例子一样.传统的聚类算法对于一般的应用问题(基本都是小数据量)都是可以解决的,但是当数据变得很大的时候,就有点"力不从心"了.这里的数据变得很大指的是:①数据的条目很多,整个数据集包含的样本数据向量很多:②针对①中的每个样本数据向量其维度很大,即包含多个属性:③要聚类的中心向量很多.当我们所要应用聚类算法的数据是上面所述情况时,传统的聚类方法应用起来就会相当棘手,这时

《Mahout算法解析与案例实战》一一 第3章 聚 类 算 法

第3章 聚 类 算 法 聚类在百度百科上的定义为:将物体或抽象对象的集合分成由类似的对象组成的多个类的过程.由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异.在自然科学和社会科学中,存在着大量的分类问题.聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法.聚类在生活中的应用有很多,例如,在商务上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群特征:在生物学上,聚类用于推导植物和动物的分类,对基

《Mahout算法解析与案例实战》一一1.4 本章小结

1.4 本章小结 本章首先介绍了Mahout应用背景,由云计算引入Hadoop,随后介绍了Hadoop云平台.Hadoop云平台的优势及其应用编程模型,由Hadoop云平台的编程引入Mahout.接着解释了Mahout的基本概念以及它的应用背景.在Mahout应用背景的基础上,介绍了Mahout算法库已经具备的算法模块,然后针对每个算法模块分别进行了每个算法的介绍.接着简单分析了Mahout的各种现有应用,其中商业上的应用比较突出,然而,在学术上,Mahout的应用也同样很广泛,一些大学课程中也

《Mahout算法解析与案例实战》一一导读

Preface?前 言 为什么要写这本书 2010年以后,世界快速进入了大数据时代,Hadoop成为大数据分析的首选平台和开发标准,无数数据分析软件纷纷向Hadoop靠拢.在Hadoop原有技术基础之上,涌现了Hadoop家族产品,它们正在配合"大数据"概念不断创新,推动科技进步.因此,新一代IT精英也必须顺应潮流,抓住机遇,随着Hadoop一起发展和成长! 简而言之,Hadoop是由Apache基金会开发的一个优秀的云计算技术框架,用户在其基础上即使不了解分布式底层细节,也可以开发分

《Mahout算法解析与案例实战》一一1.3 Mahout应用

1.3 Mahout应用 作为Apache基金会的顶级项目之一,Mahout的应用也极其广泛,一般分为商业应用和学术应用.在商业应用中,Adobe AMP公司使用Mahout的聚类算法把用户区分为不同的圈子,通过精确定位营销来增加客户.Amazon的个人推荐平台也是使用Mahout的算法库来进行推荐的.AOL使用Mahout来进行购物推荐.DataMine Lab使用Mahout的推荐算法以及聚类算法来提高客户广告投放的精确度.iOffer使用Mahout频繁项集挖掘算法和协同过滤算法为用户推荐

《Mahout算法解析与案例实战》一一1.1 Mahout应用背景

1.1 Mahout应用背景 随着互联网的发展,企业拥有的数据也越来越多,比如Facebook公司,从公司成立之初的100万用户数到2010年的1.34亿用户数,再到2014年的13.1亿用户数,其用户增长速度达到了令人惊叹的地步,单单用户数目的增长已经达到了如此地步,更不用说每个用户所产生的数据量了.很明显,面对如此庞大的数据量,企业再用以前的数据处理方式显然已经不能满足要求了.正所谓,变则通,通则久.企业若想长久发展,面对日益增长的数据,在以前传统的数据处理方式显得力不从心的时候,就需要"变

《Mahout算法解析与案例实战》一一2.4 本章小结

2.4 本章小结 本章首先简单介绍了Mahout安装所需要的基本软件,并且给出了每个软件的版本,方便用户快速.便捷地建立测试环境.然后详细给出了Ubuntu环境下的JDK和Hadoop的详细安装过程,并通过一些测试方法来验证是否安装成功.接着通过介绍Mahout的两种安装方式来详细分析如何安装Mahout,这里建议读者使用第二种方式,即下载发布版的Mahout程序进行安装.最后通过一个简单的算法调用来测试Mahout平台,不仅可以达到测试Mahout平台的目的,同时可以使用户初步了解如何使用Ma

《Mahout算法解析与案例实战》一一2.2 两种安装方式

2.2 两种安装方式 关于Mahout的安装配置,这里介绍两种方式:其一,下载源码(直接下载源码或者通过svn下载源码都可以),然后使用Maven进行编译:其二,下载完整包进行解压缩.下面分别对这两种方式进行介绍.2.2.1 使用Maven安装 使用Maven安装之前需要先安装Maven.首先到Maven官网http://maven.apache.org/download.cgi下载Maven软件,这里下载的是bin版本,解压到/home/mahout/apache-maven-3.1.0,然后