[文档]基于MapReduce的频繁项集挖掘方法

基于MapReduce的频繁项集挖掘方法

戎翔,李玲娟

为了改进关联规则挖掘的经典Apriori算法,设计一种基于Map/Reduce的频繁项集挖掘方法。通过搭建Hadoop平台,可使该方法得以实现,并籍此对该方法与Apriori算法的性能进行比较研究。实验结果表明该方法在对大数据集进行频繁项集挖掘时,可充分利用云计算的优势,从而能获得更好的时效性。

关键词:云计算;Hadoop Apriori;MapReduce

[下载地址]http://bbs.chinacloud.cn/showtopic-12897.aspx

时间: 2024-11-26 23:25:12

[文档]基于MapReduce的频繁项集挖掘方法的相关文章

基于PFP-Growth算法的海量频繁项集挖掘

基于PFP-Growth算法的海量频繁项集挖掘 江雨燕, 李平 随着互联网技术的发展,网络数据变得越来越巨大,如何从中挖掘有效信息成为人们研究的重点.近年来频繁项集挖掘由于其在关联规则挖掘.相关挖掘等任务中的相关重要作用,越来越受到人们的重视.本文针对分布式计算环境下频繁项集挖掘算法的研究,对PFP-Growth算法进行了改进,通过MapReduce编程模型对改进的PFP-Growth算法进行了实现和应用,使用户可以从海量数据中高效地获得所有需要的频繁项集,实验结果表明算法在针对海量数据时具有较

频繁项集挖掘算法之FPGrowth

背景:         频繁项集挖掘算法用于挖掘经常一起出现的item集合(称为频繁项集),通过挖掘出这些频繁项集,当在一个事务中出现频繁项集的其中一个item,则可以把该频繁项集的其他item作为推荐.比如经典的购物篮分析中啤酒.尿布故事,啤酒和尿布经常在用户的购物篮中一起出现,通过挖掘出啤酒.尿布这个啤酒项集,则当一个用户买了啤酒的时候可以为他推荐尿布,这样用户购买的可能性会比较大,从而达到组合营销的目的.         常见的频繁项集挖掘算法有两类,一类是Apriori算法,另一类是FP

[文档]基于MapReduce的Skyline-join查询算法

基于MapReduce的Skyline-join查询算法 孙大烈,李建中 Skyline查询是一种非常耗时的操作,而涉及多个表的Skyline查询(Skyline-join查询)则会给数据库系统带来更多的负载,从而影响整个系统的响应时间.为解决这个问题,提出了基于Google设计的MapReduce并行处理框架的Skyline-join查询处理算法,采用分片剪枝的方法降低复杂度,进而提高查询性能.在Amazon的云计算平台(EC2)上进行的实验表明,该算法可以有效减少冗余操作和网络数据传输,基本

《Python数据挖掘:概念、方法与实践》——2.1节什么是频繁项集

2.1 什么是频繁项集寻找频繁项集是一种计数活动.但是和从生成数据集中观测到的项目的简单计数(今天我们卖出了80个胡萝卜和100个马铃薯)相比,寻找频繁项集稍有不同.确切地说,为了找出频繁项集,我们要搜索较大的组中共同出现的项集.有时候可以把这些较大的组视为超市交易或者购物篮,整个活动有时候称为市场篮子分析.我们仍然采用超市的类比,在这些篮子中同时出现的物品有时候被视为在超市中购买的产品组合.例如,已知一组超市交易或者篮子,我们可能对篮子中{胡萝卜,马铃薯}的组合是否比{黄瓜.柠檬}的组合更频繁

R语言数据挖掘2.2.5 基于最大频繁项集的GenMax算法

2.2.5 基于最大频繁项集的GenMax算法 GenMax算法用来挖掘最大频繁项集(Maximal Frequent Itemset,MFI).算法应用了最大性特性,即增加多步来检查最大频繁项集而不只是频繁项集.这部分基于Eclat算法的事物编号集合交集运算.差集用于快速频繁检验.它是两个对应项目的事物编号集合的差. 可以通过候选最大频繁项集的定义来确定它.假定最大频繁项集记为M,若X属于M,且X是新得到频繁项集Y的超集,则Y被丢弃:然而,若X是Y的子集,则将X从集合M中移除. 下面是调用Ge

MFC 单文档中动态添加菜单项和响应菜单事件

新建一个单文档程序 在查看菜单项中增加两个子菜单,分别为隐藏工具栏(ID_HIDE),新建菜单(ID_NEWMENU) 在Resource.h中增加一个ID_NEWMENU宏 #define ID_NEWMENU        WM_USER+101   操作工具栏和状态栏 使用GetDescendantWindow函数获取工具栏和状态栏的指针 为ID_HIDE添加消息映射,编辑代码如下 static bool m_Hide=false; m_Hide=!m_Hide; //获取工具栏指针 CW

c# 频繁项集-C#---频繁项集,非常期待大家的解答

问题描述 C#---频繁项集,非常期待大家的解答 如何用C#编写一个程序,用索引法或是其他方法来检测频繁项集是否具有超集,急用,请求大家的帮忙,万分感谢~~~

c++-MFC单文档 CTreeView 树结点前加小图标的方法

问题描述 MFC单文档 CTreeView 树结点前加小图标的方法 RT.是在视图分割了以后要用到的. 要在每个根项前加一个图标1,同时在根项的子项前加图标2 不太了解这块..麻烦讲详细点,万分感谢! 解决方案 参考:http://blog.csdn.net/lifu119/article/details/7024268 关键点: himl=ImageList_Create(16,16,ILC_COLOR32,1,12); ImageList_Add(himl,LoadBitmap(hInstX

在Word文档中插入Cad图的3种方法

在word文件中插入我们绘制的cad图,方法大体上有三种,但是它们达到的效果却并不相同,有的显得精致些,有的显得粗糙些,根据我们写作的目的还要进行相应的再处理,这个过程有一些技巧,现在把它写下来,希望能给读者朋友以启发. 要在word文件中插入一个cad图,可以利用下面的三种方法来实现: 第一种,利用键盘上的"print screen sysrq"来抓取cad图,再通过系统自带的画图软件做进一步的修剪,去掉cad剪贴图中多余的部分,这项工作为了是能使图片在word文件中显示的足够的清晰