频繁项集挖掘算法之FPGrowth

背景：

频繁项集挖掘算法用于挖掘经常一起出现的item集合（称为频繁项集），通过挖掘出这些频繁项集，当在一个事务中出现频繁项集的其中一个item，则可以把该频繁项集的其他item作为推荐。比如经典的购物篮分析中啤酒、尿布故事，啤酒和尿布经常在用户的购物篮中一起出现，通过挖掘出啤酒、尿布这个啤酒项集，则当一个用户买了啤酒的时候可以为他推荐尿布，这样用户购买的可能性会比较大，从而达到组合营销的目的。

常见的频繁项集挖掘算法有两类，一类是Apriori算法，另一类是FPGrowth。Apriori通过不断的构造候选集、筛选候选集挖掘出频繁项集，需要多次扫描原始数据，当原始数据较大时，磁盘I/O次数太多，效率比较低下。FPGrowth算法则只需扫描原始数据两遍，通过FP-tree数据结构对原始数据进行压缩，效率较高。

FPGrowth算法主要分为两个步骤：FP-tree构建、递归挖掘FP-tree。FP-tree构建通过两次数据扫描，将原始数据中的事务压缩到一个FP-tree树，该FP-tree类似于前缀树，相同前缀的路径可以共用，从而达到压缩数据的目的。接着通过FP-tree找出每个item的条件模式基、条件FP-tree，递归的挖掘条件FP-tree得到所有的频繁项集。算法的主要计算瓶颈在FP-tree的递归挖掘上，下面详细介绍FPGrowth算法的主要步骤。

FPGrowth的算法步骤：

FP-tree构建

1. 第一遍扫描数据，找出频繁1项集L，按降序排序
2. 第二遍扫描数据：
  - 对每个transaction，过滤不频繁集合，剩下的频繁项集按L顺序排序
  - 把每个transaction的频繁1项集插入到FP-tree中，相同前缀的路径可以共用
  - 同时增加一个header table，把FP-tree中相同item连接起来，也是降序排序
  - ==>

频繁项挖掘
1. 从header table的最下面的item开始，构造每个item的条件模式基（conditional pattern base）
  - 顺着header table中item的链表，找出所有包含该item的前缀路径，这些前缀路径就是该item的条件模式基（CPB）
  - 所有这些CPB的频繁度（计数）为该路径上item的频繁度（计数）
  - 如包含p的其中一条路径是fcamp，该路径中p的频繁度为2，则该CPB fcam的频繁度为2
2. 构造条件FP-tree（conditional FP-tree）
  - 累加每个CPB上的item的频繁度（计数），过滤低于阈值的item，构建FP-tree
  - 如m的CPB{<fca:2>, <fcab:1>}，f:3, c:3, a:3, b:1, 阈值假设为3，过滤掉b
3. FP-Growh：递归的挖掘每个条件FP-tree，累加后缀频繁项集，直到找到FP-tree为空或者FP-tree只有一条路径（只有一条路径情况下，所有路径上item的组合都是频繁项集）

注意点：

FP-Tree中header table按item降序排序原因

1. 共用前缀：不排序会造成不能共用前缀
2. 更多的共用前缀：频繁的item会在树的上层，可以被更多的共享；升序排序会造成那些频繁出现的item出现在树的分支中，不能更多的共用前缀

参考文献：

时间： 2024-08-22 13:40:59

频繁项集挖掘算法之FPGrowth的相关文章

基于PFP-Growth算法的海量频繁项集挖掘

基于PFP-Growth算法的海量频繁项集挖掘江雨燕, 李平随着互联网技术的发展,网络数据变得越来越巨大,如何从中挖掘有效信息成为人们研究的重点.近年来频繁项集挖掘由于其在关联规则挖掘.相关挖掘等任务中的相关重要作用,越来越受到人们的重视.本文针对分布式计算环境下频繁项集挖掘算法的研究,对PFP-Growth算法进行了改进,通过MapReduce编程模型对改进的PFP-Growth算法进行了实现和应用,使用户可以从海量数据中高效地获得所有需要的频繁项集,实验结果表明算法在针对海量数据时具有较

[文档]基于MapReduce的频繁项集挖掘方法

基于MapReduce的频繁项集挖掘方法戎翔,李玲娟为了改进关联规则挖掘的经典Apriori算法,设计一种基于Map/Reduce的频繁项集挖掘方法.通过搭建Hadoop平台,可使该方法得以实现,并籍此对该方法与Apriori算法的性能进行比较研究.实验结果表明该方法在对大数据集进行频繁项集挖掘时,可充分利用云计算的优势,从而能获得更好的时效性. 关键词:云计算:Hadoop Apriori:MapReduce [下载地址]http://bbs.chinacloud.cn/showtopic

《Python数据挖掘：概念、方法与实践》——2.1节什么是频繁项集

2.1 什么是频繁项集寻找频繁项集是一种计数活动.但是和从生成数据集中观测到的项目的简单计数(今天我们卖出了80个胡萝卜和100个马铃薯)相比,寻找频繁项集稍有不同.确切地说,为了找出频繁项集,我们要搜索较大的组中共同出现的项集.有时候可以把这些较大的组视为超市交易或者购物篮,整个活动有时候称为市场篮子分析.我们仍然采用超市的类比,在这些篮子中同时出现的物品有时候被视为在超市中购买的产品组合.例如,已知一组超市交易或者篮子,我们可能对篮子中{胡萝卜,马铃薯}的组合是否比{黄瓜.柠檬}的组合更频繁

R语言数据挖掘2.2.5　基于最大频繁项集的GenMax算法

2.2.5 基于最大频繁项集的GenMax算法 GenMax算法用来挖掘最大频繁项集(Maximal Frequent Itemset,MFI).算法应用了最大性特性,即增加多步来检查最大频繁项集而不只是频繁项集.这部分基于Eclat算法的事物编号集合交集运算.差集用于快速频繁检验.它是两个对应项目的事物编号集合的差. 可以通过候选最大频繁项集的定义来确定它.假定最大频繁项集记为M,若X属于M,且X是新得到频繁项集Y的超集,则Y被丢弃:然而,若X是Y的子集,则将X从集合M中移除. 下面是调用Ge

c# 频繁项集-C#---频繁项集，非常期待大家的解答

问题描述 C#---频繁项集,非常期待大家的解答如何用C#编写一个程序,用索引法或是其他方法来检测频繁项集是否具有超集,急用,请求大家的帮忙,万分感谢~~~

《中国人工智能学会通讯》——12.3 基于 Apriori 的序列模式挖掘算法

12.3 基于 Apriori 的序列模式挖掘算法 GSP(Generalized Sequential Patterns) [17] 是一种经典的序列模式挖掘算法,它直接从频繁模式挖掘的 Apriori 算法扩展而来.GSP 采用了水平的数据格式,通过生成候选序列及扫描数据库的方法逐层挖掘频繁序列模式.这里的水平数据格式指的是依然以序列作为主要的观察对象.此外,GSP 还采用了序列模式支持度的向下封闭性用于剪枝.与Apriori 不同的是,GSP 在生成候选序列的时候考虑了有序和无序两种情况,

并行化频繁模式挖掘算法FP Growth及其在Mahout下的命令使用

今天调研了并行化频繁模式挖掘算法PFP Growth及其在Mahout下的命令使用,简单记录下试验结果,供以后查阅: 环境:Jdk1.7 + Hadoop2.2.0单机伪集群 + Mahout0.6(0.8和0.9版本都不包含该算法.Mahout0.6可以和Hadoop2.2.0和平共处有点意外orz) 部分输入数据,输入数据一行代表一个购物篮: 4750,19394,25651,6395,5592 26180,10895,24571,23295,20578,27791,2729,8637 7

《中国人工智能学会通讯》——12.4 基于模式增长的序列模式挖掘算法

12.4 基于模式增长的序列模式挖掘算法 FreeSpan [15] 和 PrefixSpan [22] 都是由 Han 和 Pei等人提出的基于模式增长的序列模式挖掘算法.它们都是基于频繁模式挖掘中的 FP-growth [23] 思想而被提出的.其中,FreeSpan 基于频繁项将数据库划分成若干投影子数据库,然后在各个子数据库中进行序列模式的挖掘.PrefixSpan 则优化了构建投影数据库的过程,它首先检查前缀序列的位置并且只对后缀子序列进行投影,从而进一步缩小了搜索空间.当挖掘出长度的

《大数据算法》一3.5　寻找频繁元素的随机算法

3.5 寻找频繁元素的随机算法本节重新研究3.3节中讨论的问题,提出寻找频繁元素的随机算法.Misra-Gries算法通过扫描数据一次提供足够的信息,然后通过第二次扫描数据解决频繁元素发现问题,即扫描数据第一次过程中Misra-Gries算法计算一个数据结构,对于j∈［n］该数据结构可以获得其频率fj的足够准确估计fj.本小节提出另外两个频率估计的随机算法. 3.5.1 略图法 1.略图和线性略图在处理数据流σ的过程中,令表示Misra-Gries算法中所需的数据结构.这种数据结构的一个缺点

猜你喜欢

事半功倍之Javascript(4)

javascript 第十一章使用Math对象 1. 使用Math对象 <script language=javascript></script><form name= ...

重建 master 数据库

数据|数据库关闭 Microsoft SQL Server 2000,然后运行 Rebuildm.exe.该程序位于 Program Files\Microsoft SQL Server\80\To ...

jsp连接数据库---Mysql

js|mysql|连接数据库 jsp连接数据库---Mysql 时间:2005-1-24操作系统:windows XP SP1 1.安装JDK 5.0 update 1 下载:http://java. ...

从canonical标签来解密真正的用户体验

在所有个人站长眼中,百度提出的用户体验总是耳熟能详,但要是真正的能说出来什么是真实的用户体验,怕是寥寥无几了,更别提能说出个123的了.今天就让我从强大的canonical标签来说明用户体验到底是什么 ...

反驳《SEO的几大罪行》如何真正去理解SEO

最近,在行业网站中看到了一篇<SEO的几大罪行>的文章,文中的所思所写令我感触很深.我必不是认同他的观点,只是在感叹,为什么SEO会被人评价成这样?到底是什么原因导致?而且目前有非常多的人 ...

在.NET 应用程序中用System.Web.Mail 发送电子邮件

web|程序在.NET 应用程序中用System.Web.Mail 发送电子邮件作者:Mark Strawmyer日期:February 9, 2004 --------------------- ...

图解CSS(9)：列表

list-style-type (指定类型) list-style-image (指定图片) list-style-position (指定位置) list-style (综合设置) marker-o ...

Orcale与Asp.net的端口冲突

本文给出用户在安装Oracle之后,再使用.NET创建ASP.NET应用程序出现VS.NET检测到web服务器运行的是ASP.NET 1.0版,要创建或打开的应用程序可以配置成与1.0兼容,但将无法运 ...

常用Word办公软件快捷键

常用Word的朋友都知道这些快捷键,其实记住了使用起来还是很方便,最主要的是能够提高效率,节约时间,呵呵. 快捷键及作用: # Ctrl+Shift+Spacebar 创建不间断空格 Ctrl+ -( ...

Xp系统打不开chm文件如何解决

Xp系统打不开chm文件如何解决步骤如下: 1.在帮助文件上单击右键选择"属性"; 2.在属性界面"常规"选卡中点击"解除锁定"点击应用 ...

mysql插入操作-MYSQL批处理插入数据问题

问题描述 MYSQL批处理插入数据问题最近在对mysql进行数据插入的时候遇到以下问题,用的是JDBC的PreparedStatement,以BatchUpdate批处理插入的方式进行数据插入,一次 ...

《ADOBE AFTER EFFECTS CS6标准培训教材》——导读

前言秋天,藕菱飘香,稻菽低垂.往往与收获和喜悦联系在一起. 秋天,天高云淡,望断南飞雁.往往与爽朗和未来的展望联系在一起. 秋天,还是一个登高望远.鹰击长空的季节. 心绪从大自然的悠然清爽转回到现 ...

javascript-请问，如何用JavaScript获取div中插入符光标的像素位置？

问题描述请问,如何用JavaScript获取div中插入符光标的像素位置? 如题,div是可编辑的,width和height可变,输入的字符不限格式,并且可输入的字符数量庞大. ps:热心的亲们,文 ...

Java类中的构造函数？

问题描述 Java类中的构造函数? class Circle { double radius; Circle() { radius = 1.0; } Circle(double newRadius) ...

OPENGL学习笔记（一）画一只dinosaur

OpenGL这个库好,比起之前用过的opencv,cuda等开放库,opengl才几兆,不用安装,而且相对于VTK来说,OpenGL封装好的函数较为底层,灵活度较高,也可以更好地体现自己编写的算法的好 ...

iOS使用环信3.0的时候，第三方（MJRefresh等）冲突，怎么解决的？有相关指导么？

问题描述因为本来就有使用第三方的,然后环信自带了第三方,但是两个里面的方法可以说基本不一样的,但是同时继承于同一个类,导致系统报错解决方案如果不想太多改动,可以通过改名的方式避免冲突.解决方案二 ...

微软即将发布开发多年的新型搜索工具：Delve

网易科技讯 7月11日消息,据国外媒体报道,微软即将发布一款已开发多年的新型搜索工具:Delve. 微软CEO萨蒂亚・纳德拉(Satya Nadella)近日在一份备忘录中透露,他新的愿景是将微软转型 ...

mdev的使用以及mdev.conf的规则配置--busybox

一下是我在网上看到别人写的一篇文章,这篇文章给我带来了很大的帮助,在好这里我分享出来,希望给你们带来帮助. mdev是busybox下的udev的精简版,适合在嵌入式系统下管理设备但mdev会把所有 ...

沙龙报名啦：顶级架构师为您讲述企业互联网架构优化升级之路（阿里云授权中心沙龙计划）

报名地址:http://www.bagevent.com/event/581635 Topic 1 阿里云消息中间件(MQ)原理及实践主要讲述消息队列的设计思路与原理以及MQ在各个领域内的解决方案等 ...

用“工匠精神”打造大数据产业园

全国两会前后,我国一大批大数据产业园区纷纷落户.而写进政府工作报告的"工匠精神",使得人们对大数据产业园区的风起云涌,产生种种忧虑.作为一种新兴产业园区,如何能将"工匠精 ...

我现在有很多用户装在数组里面，我把它们的都放在聊天跳转页面，老是发生错乱，我使用的是UI.3demo的聊天，

问题描述解决方案创建会话的时候,根据用户的环信ID去创建.

政府与公众事业成功案例

安大略省政府率先采用下一代电子政务安大略省政府利用思科系统公司提供的一个基于网络技术的强大基础设施,以及稳固的公共和私营合作关系,正在成为一个网络化虚拟组织――拆除壁垒.缩减规模.提高生产率,形成一 ...

申科股份

全景网4月20日讯今日申科http://www.aliyun.com/zixun/aggregation/628.html">股份(002633,股吧)(002633)董事长何全波在 ...

解析C++中构造函数的默认参数和构造函数的重载_C 语言

C++构造函数的默认参数和普通函数一样,构造函数中参数的值既可以通过实参传递,也可以指定为某些默认值,即如果用户不指定实参值,编译系统就使形参取默认值. [例] #include <iostr ...

Java中的观察者模式实例讲解_java

观察者模式是一种行为设计模式.观察者模式的用途是,当你对一个对象的状态感兴趣,希望在它每次发生变化时获得通知.在观察者模式中,观察另外一个对象状态的对象叫做Observer观察者,被观察的对象叫着Su ...

vs2010无法打开项目文件的原因分析及解决方法_实用技巧

使用 Visual Studio 2010 SP1 打开项目文件的时候出现以下提示信息: 报错的原因是 vs2010需要把mvc版本升到3,默认的vs2010的mvc是2 vs2010 mvc3下载地 ...

jQuery实现带动画效果的多级下拉菜单代码_jquery

本文实例讲述了jQuery实现带动画效果的多级下拉菜单代码.分享给大家供大家参考.具体如下: 这是一款基于jQuery实现的多级下拉菜单,带动画效果,所有的元素以ul li ul li ul li的循 ...

海量文件处理技术

问题描述海量文件处理技术(是文件不是数据库)除了mapreduce还有其他的技术吗?能否简单说明解决方案解决方案二:Lucene算不算?不过没有mapreduce那么海量~

PHP下使用富文本过滤器 HTML Purifier 防止xss跨站攻击

随着html可视即可得编辑器的流行,很多网站使用了这样的编辑器,比如FCKEditor.百度UEditor编辑器等等. 跨站脚本攻击(XSS)已经不是什么新鲜的话题了,甚至很多大公司也为此吃尽苦头.最 ...

C#读取Excel 使用 OleDbConnection 怎么才能把列全部读取出来！

问题描述如标题,如果Excel里面有1000个列,但是OleDbConnection每次只能读取255个列,是客户需要做的,不可能去改客户服务器上的注册表,求指导! 解决方案解决方案二:这个还有限 ...

热搜