R语言数据挖掘2.2.5 基于最大频繁项集的GenMax算法

2.2.5 基于最大频繁项集的GenMax算法

GenMax算法用来挖掘最大频繁项集(Maximal Frequent Itemset,MFI)。算法应用了最大性特性,即增加多步来检查最大频繁项集而不只是频繁项集。这部分基于Eclat算法的事物编号集合交集运算。差集用于快速频繁检验。它是两个对应项目的事物编号集合的差。

可以通过候选最大频繁项集的定义来确定它。假定最大频繁项集记为M,若X属于M,且X是新得到频繁项集Y的超集,则Y被丢弃;然而,若X是Y的子集,则将X从集合M中移除。

下面是调用GenMax算法前的伪代码,

M← ,且P←{<Xi, t(Xi)>|Xi∈D, support_count(Xi)≥MIN_SUP}

其中,D是输入事务数据集。

 

R语言实现

GenMax算法的主要部分的R语言代码如下所示:

时间: 2024-09-24 09:17:12

R语言数据挖掘2.2.5 基于最大频繁项集的GenMax算法的相关文章

R语言数据挖掘2.1.1.2 频繁子序列

2.1.1.2 频繁子序列 频繁子序列是元素的一个有序列表,其中每个元素包含至少一个事件.一个例子是某网站页面访问序列,具体而言,它是某个用户访问不同网页的顺序.下面给出了频繁子序列的两个例子. 消费者数据:某些客户在购物商城连续的购物记录可作为序列,购买的每个商品作为事件项,用户一次购买的所有项作为元素或事务. 网页使用数据:访问WWW历史记录的用户可作为一个序列,每个UI/页面作为一个事件或项目,元素或事务定义为用户通过一次鼠标的单击访问的页面. 序列中包含的项数定义为序列的长度.长度为k的

《R语言数据挖掘》----导读

Preface 前 言 世界各地的统计学家和分析师正面临着处理许多复杂统计分析项目的迫切问题.由于人们对数据分析领域的兴趣日益增加,所以R语言提供了一个免费且开源的环境,非常适合学习和有效地利用现实世界中的预测建模方案.随着R语言社区的不断发展及其大量程序包的不断增加,它具备了解决众多实际问题的强大功能. R编程语言诞生已经有数十年了,它已经变得非常知名,不但被社区的科学家而且被更广泛的开发者社区所熟知.它已经成长为一个强大的工具,可以帮助开发者在执行数据相关任务时生成有效且一致的源代码.由于R

R语言数据挖掘

数据分析与决策技术丛书 R语言数据挖掘 Learning Data Mining with R [哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel) 著 李洪成 许金炜 段力辉 译 图书在版编目(CIP)数据 R语言数据挖掘 / (哈)贝特·麦克哈贝尔(Bater Makhabel)著:李洪成,许金炜,段力辉译. -北京:机械工业出版社,2016.9 (数据分析与决策技术丛书) 书名原文:Learning Data Mining with R ISBN 978-7-111-54769-

《R语言数据挖掘》——2.2 购物篮分析

本节书摘来自华章出版社<R语言数据挖掘>一书中的第2章,第2.2节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 2.2 购物篮分析 购物篮分析(Market basket analysis)是用来挖掘消费者已购买的或保存在购物车中物品组合规律的方法.这个概念适用于不同的应用,特别是商店运营.源数据集是一个巨大的数据记录,购物篮分析的目的发现源数据集中不同项之间的关联关系. 2

R语言数据挖掘导读

Preface 前 言 世界各地的统计学家和分析师正面临着处理许多复杂统计分析项目的迫切问题.由于人们对数据分析领域的兴趣日益增加,所以R语言提供了一个免费且开源的环境,非常适合学习和有效地利用现实世界中的预测建模方案.随着R语言社区的不断发展及其大量程序包的不断增加,它具备了解决众多实际问题的强大功能. R编程语言诞生已经有数十年了,它已经变得非常知名,不但被社区的科学家而且被更广泛的开发者社区所熟知.它已经成长为一个强大的工具,可以帮助开发者在执行数据相关任务时生成有效且一致的源代码.由于R

《R语言数据挖掘》----第2章 频繁模式、关联规则和相关规则挖掘 2.1关联规则和关联模式概述

本节书摘来自华章出版社<R语言数据挖掘>一书中的第2章,第2.1节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 第2章 频繁模式.关联规则和相关规则挖掘 本章中,我们将首先学习如何用R语言挖掘频繁模式.关联规则及相关规则.然后,我们将使用基准数据评估所有这些方法以便确定频繁模式和规则的兴趣度.本章内容主要涵盖以下几个主题: 关联规则和关联模式概述 购物篮分析 混合关联规则挖掘

《R语言数据挖掘》----1.13 数据降维

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.13节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.13 数据降维 在分析复杂的多变量数据集时,降低维度往往是必要的,因为这样的数据集总是以高维形式呈现.因此,举例来说,从大量变量来建模的问题和基于定性数据多维分析的数据挖掘任务.同样,有很多方法可以用来对定性数据进行数据降维. 降低维度的目标就是通过两个或者多

《R语言数据挖掘》----1.10 数据属性与描述

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.10节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.10 数据属性与描述 属性(attribute)是代表数据对象的某些特征.特性或者维度的字段. 在大多数情况下,数据可以用矩阵建模或者以矩阵形式表示,其中列表示数据属性,行表示数据集中的某些数据记录.对于其他情况,数据不能用矩阵表示,比如文本.时间序列.图像.

《R语言数据挖掘》----1.5 文本挖掘

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.5节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.5 文本挖掘 文本挖掘基于文本数据,关注从大型自然语言文本中提取相关信息,并搜寻有意义的关系.语法关系以及提取实体或各项之间的语义关联.它也被定义为自动或半自动的文本处理.相关的算法包括文本聚类.文本分类.自然语言处理和网络挖掘. 文本挖掘的特征之一是数字与文本