基于PFP-Growth算法的海量频繁项集挖掘

基于PFP-Growth算法的海量频繁项集挖掘

江雨燕, 李平

随着互联网技术的发展,网络数据变得越来越巨大,如何从中挖掘有效信息成为人们研究的重点。近年来频繁项集挖掘由于其在关联规则挖掘、相关挖掘等任务中的相关重要作用,越来越受到人们的重视。本文针对分布式计算环境下频繁项集挖掘算法的研究,对PFP-Growth算法进行了改进,通过MapReduce编程模型对改进的PFP-Growth算法进行了实现和应用,使用户可以从海量数据中高效地获得所有需要的频繁项集,实验结果表明算法在针对海量数据时具有较高的效率和伸缩性。

基于PFP-Growth算法的海量频繁项集挖掘

时间: 2024-11-26 23:25:13

基于PFP-Growth算法的海量频繁项集挖掘的相关文章

[文档]基于MapReduce的频繁项集挖掘方法

基于MapReduce的频繁项集挖掘方法 戎翔,李玲娟 为了改进关联规则挖掘的经典Apriori算法,设计一种基于Map/Reduce的频繁项集挖掘方法.通过搭建Hadoop平台,可使该方法得以实现,并籍此对该方法与Apriori算法的性能进行比较研究.实验结果表明该方法在对大数据集进行频繁项集挖掘时,可充分利用云计算的优势,从而能获得更好的时效性. 关键词:云计算:Hadoop Apriori:MapReduce [下载地址]http://bbs.chinacloud.cn/showtopic

频繁项集挖掘算法之FPGrowth

背景:         频繁项集挖掘算法用于挖掘经常一起出现的item集合(称为频繁项集),通过挖掘出这些频繁项集,当在一个事务中出现频繁项集的其中一个item,则可以把该频繁项集的其他item作为推荐.比如经典的购物篮分析中啤酒.尿布故事,啤酒和尿布经常在用户的购物篮中一起出现,通过挖掘出啤酒.尿布这个啤酒项集,则当一个用户买了啤酒的时候可以为他推荐尿布,这样用户购买的可能性会比较大,从而达到组合营销的目的.         常见的频繁项集挖掘算法有两类,一类是Apriori算法,另一类是FP

《Python数据挖掘:概念、方法与实践》——2.1节什么是频繁项集

2.1 什么是频繁项集寻找频繁项集是一种计数活动.但是和从生成数据集中观测到的项目的简单计数(今天我们卖出了80个胡萝卜和100个马铃薯)相比,寻找频繁项集稍有不同.确切地说,为了找出频繁项集,我们要搜索较大的组中共同出现的项集.有时候可以把这些较大的组视为超市交易或者购物篮,整个活动有时候称为市场篮子分析.我们仍然采用超市的类比,在这些篮子中同时出现的物品有时候被视为在超市中购买的产品组合.例如,已知一组超市交易或者篮子,我们可能对篮子中{胡萝卜,马铃薯}的组合是否比{黄瓜.柠檬}的组合更频繁

R语言数据挖掘2.2.5 基于最大频繁项集的GenMax算法

2.2.5 基于最大频繁项集的GenMax算法 GenMax算法用来挖掘最大频繁项集(Maximal Frequent Itemset,MFI).算法应用了最大性特性,即增加多步来检查最大频繁项集而不只是频繁项集.这部分基于Eclat算法的事物编号集合交集运算.差集用于快速频繁检验.它是两个对应项目的事物编号集合的差. 可以通过候选最大频繁项集的定义来确定它.假定最大频繁项集记为M,若X属于M,且X是新得到频繁项集Y的超集,则Y被丢弃:然而,若X是Y的子集,则将X从集合M中移除. 下面是调用Ge

c# 频繁项集-C#---频繁项集,非常期待大家的解答

问题描述 C#---频繁项集,非常期待大家的解答 如何用C#编写一个程序,用索引法或是其他方法来检测频繁项集是否具有超集,急用,请求大家的帮忙,万分感谢~~~

cv模型-基于split bregman 算法处理活动轮廓模型

问题描述 基于split bregman 算法处理活动轮廓模型 30C 小弟,正在研究凸优化的全局CV模型,但是苦苦没有代码,自己写又写不出来,特地来借助这万能的贴吧,询问各位好心人,有没有关于这种文章大matlab代码,如果有,恳求发一份2443671961@qq.com. 只要是用split bregman 算法处理活动轮廓模型的代码均可....跪求,跪求.... 解决方案 既然正在研究,那就尝试着写个代码好了,经过自己努力得来的东西才能永远记在心里!

c++-基于C++的EXCEL XLL加载项为什么不能成功加载?

问题描述 基于C++的EXCEL XLL加载项为什么不能成功加载? 我用C++写了一个EXCEL的XLL加载项,使用了VS2008中的MD模式. 在绝大多数机器上,只要我先安装vs2008 runtime,就可以成功加载,但有的机器,即使安装上述runtime或VS后,也不能够成功加载. 请问这是什么原因,有人遇到过同样的问题么? 问题补充: 我回去试了一下,确实有32/64位的问题.但我在虚拟机上重装了一个32位的新机器,也还是不能够成功加载. 解决方案 看下是不是因为你的office是64b

做毕业设计,哪位大神能提供做好的高校排课系统基于人工蜂群算法的?

问题描述 基于人工蜂群算法的高校排课系统,必有重谢 解决方案 解决方案二:只要能做出来rmb也可以解决方案三:唉,课设还没做完.我又没钱让别人帮做,怎么办?解决方案四:楼主,你说一下给多少RMB?解决方案五:先报个价吧.解决方案六:能做出来吗500?现在没有思路啊,不知道怎么结合算法排课,约束条件怎么转化成排课的矩阵?

基于蚁群算法的云计算联盟资源调度

基于蚁群算法的云计算联盟资源调度 陈冬林 姚梦迪  桂雁军  陈玲 针对目前云计算联盟的架构和单云环境下资源调度的研究缺少对云计算联盟下的资源调度问题的研究情况,建立了由云用户.云服务供应商和云联盟协调器组成的云计算联盟资源调度模型,为达到云供应商利益最大化,设计了任务-虚拟机-数据中心的调度算法,利用蚁群算法进行模型求解,并通过Cloudsim仿真软件证实了该算法的合理性,验证了供应商资源的数据中心负载率在60%-80%之间时达到均衡,并可获得最大利益. 基于蚁群算法的云计算联盟资源调度