《R语言数据挖掘》——2.4 序列数据集挖掘

本节书摘来自华章出版社《R语言数据挖掘》一书中的第2章,第2.4节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问“华章计算机”公众号查看。

2.4 序列数据集挖掘

序列数据集挖掘的一个重要任务是序列模式挖掘。A-Priori-life算法被用来进行序列模式挖掘,这里使用的A-Priori-life算法,它是采用广度优先策略。然而,FP-growth算法,采用深度优先策略。出于不同的原因,算法有时还需要综合考虑一些约束。

从序列模式中,可以发现商店消费者的常见购买模式。在其他方面,特别是广告或市场营销,序列模式挖掘发挥重要作用。可以从网络日志挖掘、网页推荐系统、生物信息学分析、病历跟踪分析、灾害预防与安全管理等领域中预测个人消费者行为。

本章中的规则都是从序列模式中挖掘出来的,它们具有多种。其中一些类型序列模式如下所示:

序列规则:X→Y,其中XY。

标签序列规则(Label Sequential Rule,LSR):形如X→Y,其中Y是一个序列,X是将序列Y中的若干项用通配符替换后而产生的序列。

类序列规则(Class Sequential Rule,CSR):定义为X,若:
X→y,假设S为序列数据集,I是序列数据集S中所有项的集合,Y是类标签的集合,I∩Y=,X是一个序列且y∈Y。

2.4.1 序列数据集

序列数据集S定义为元组(sid, s)的集合,其中sid为序列ID,s为序列。
在序列数据集S中,序列X的支持度定义为S中包含X的元组数,即
supportS(X)={(sid, s)∨(sid, s)∈S←Xs}

这是序列模式的一个内在性质,它应用于相关的算法,如Apriori算法的Apriori性质。对于序列X及其子序列Y,support(X)≤support(Y)。

2.4.2 GSP算法

广义序列模式(Generalized Sequential Pattern,GSP)算法是一个类似Apriori的算法,但它应用于序列模式。该算法是逐层算法,采取宽度优先策略。它具有如下的特征:

GSP算法是Apriori算法的扩展。它利用Apriori性质(向下封闭),即,给定最小支持计数,若不接受某个序列,则其超序列也将丢弃。

需要对初始事务数据集进行多次扫描。

采用水平数据格式。

每次扫描中,通过将前一次扫描中发现的模式进行自连接来产生候选项集。
在第k次扫描中,仅当在第(k-1)次扫描中接受所有的(k-1)子模式,才接收该序列模式。

GSP算法为:

伪代码为:


时间: 2024-10-25 08:03:13

《R语言数据挖掘》——2.4 序列数据集挖掘的相关文章

《R语言数据挖掘》——1.4 社交网络挖掘

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.4节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.4 社交网络挖掘 正如我们前面提到的,数据挖掘是从数据中发现一个模型,社交网络挖掘就是从表示社交网络的图形数据中发现模型. 社交网络挖掘是网络数据挖掘的一个应用,比较流行的应用有社会科学和文献计量学.PageRank和HITS算法.粗粒度图模型的不足.增强模型和

R语言数据挖掘1.4 社交网络挖掘

1.4 社交网络挖掘 正如我们前面提到的,数据挖掘是从数据中发现一个模型,社交网络挖掘就是从表示社交网络的图形数据中发现模型. 社交网络挖掘是网络数据挖掘的一个应用,比较流行的应用有社会科学和文献计量学.PageRank和HITS算法.粗粒度图模型的不足.增强模型和技术.主题提取的评估以及网络的评估与建模. 社交网络 当涉及社交网络的讨论时,你会想到Facebook.Google+和LinkedIn等.社交网络的基本特征如下: 存在一个参与网络的实体集合.通常情况下,这些实体是人,但它们也完全可

《R语言数据挖掘》----第2章 频繁模式、关联规则和相关规则挖掘 2.1关联规则和关联模式概述

本节书摘来自华章出版社<R语言数据挖掘>一书中的第2章,第2.1节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 第2章 频繁模式.关联规则和相关规则挖掘 本章中,我们将首先学习如何用R语言挖掘频繁模式.关联规则及相关规则.然后,我们将使用基准数据评估所有这些方法以便确定频繁模式和规则的兴趣度.本章内容主要涵盖以下几个主题: 关联规则和关联模式概述 购物篮分析 混合关联规则挖掘

《R语言数据挖掘》——2.3 混合关联规则挖掘

本节书摘来自华章出版社<R语言数据挖掘>一书中的第2章,第2.3节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 2.3 混合关联规则挖掘 关联规则挖掘有两个有意义的应用:一是多层次和多维度关联规则挖掘:二是基于约束的关联规则挖掘. 2.3.1 多层次和多维度关联规则挖掘 对于给定的事务数据集,若数据集的某些维度存在概念层次关系,则需要对该数据集进行多层次关联规则挖掘.对事物数

《R语言数据挖掘》----导读

Preface 前 言 世界各地的统计学家和分析师正面临着处理许多复杂统计分析项目的迫切问题.由于人们对数据分析领域的兴趣日益增加,所以R语言提供了一个免费且开源的环境,非常适合学习和有效地利用现实世界中的预测建模方案.随着R语言社区的不断发展及其大量程序包的不断增加,它具备了解决众多实际问题的强大功能. R编程语言诞生已经有数十年了,它已经变得非常知名,不但被社区的科学家而且被更广泛的开发者社区所熟知.它已经成长为一个强大的工具,可以帮助开发者在执行数据相关任务时生成有效且一致的源代码.由于R

R语言数据挖掘

数据分析与决策技术丛书 R语言数据挖掘 Learning Data Mining with R [哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel) 著 李洪成 许金炜 段力辉 译 图书在版编目(CIP)数据 R语言数据挖掘 / (哈)贝特·麦克哈贝尔(Bater Makhabel)著:李洪成,许金炜,段力辉译. -北京:机械工业出版社,2016.9 (数据分析与决策技术丛书) 书名原文:Learning Data Mining with R ISBN 978-7-111-54769-

《R语言数据挖掘》——2.5 R语言实现

本节书摘来自华章出版社<R语言数据挖掘>一书中的第2章,第2.5节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 2.5 R语言实现 算法主要部分的R语言实现为: 2.5.1 SPADE算法 使用等价类的序列模式发现(Sequential Pattern Discovery using Equivalent class,SPADE)算法是应用于序列模式的垂直序列挖掘算法,它采用

《R语言数据挖掘》----第1章 预备知识 1.1大数据

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.1节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 第1章 预备知识 本章中,你将学习基本的数据挖掘术语,比如数据定义.预处理等.最重要的数据挖掘算法将通过R语言进行说明,以便帮助你快速掌握原理,包括但不局限于分类.聚类和异常值检测.在深入研究数据挖掘之前,我们来看一看将要介绍的主题:数据挖掘社交网络挖掘文本挖掘网络

R语言数据挖掘导读

Preface 前 言 世界各地的统计学家和分析师正面临着处理许多复杂统计分析项目的迫切问题.由于人们对数据分析领域的兴趣日益增加,所以R语言提供了一个免费且开源的环境,非常适合学习和有效地利用现实世界中的预测建模方案.随着R语言社区的不断发展及其大量程序包的不断增加,它具备了解决众多实际问题的强大功能. R编程语言诞生已经有数十年了,它已经变得非常知名,不但被社区的科学家而且被更广泛的开发者社区所熟知.它已经成长为一个强大的工具,可以帮助开发者在执行数据相关任务时生成有效且一致的源代码.由于R