跟我一起数据挖掘(2)——挖掘模式

数据模式包括:特征化与区分、频繁模式、关联和相关性挖掘、分类与回归、聚类分析、离群点分析等。

任务可以分为两类:描述性和预测性数据。

数据特征化:

汇总所研究类的数据。

数据区分:

将目标类一个或多个可比较类进行比较。

频繁模式挖掘、关联和相关性:

频繁模式(Frequent Pattern)是频繁出现在数据集中的模式(如项集,子序列和子结构)。频繁模式一般可以用关联规则表示如何判断模式是否频繁,有两个基本的度量:

支持度(support):该模式在所有被考察的对象中的占比,表示了该模式(规则)的有用性;

置信度(cofidence):由规则的前因推出后果的可信度,表示了规则的确定性;

设规则为A->B,则支持度和置信度可以表示如下:

support(A->B) = P(AUB)

confidence(A->B) = P(A|B)

    决定关联规则是否丢弃的条件就是看最小支持度阙值和最小置信度阙值是否满足。

 用于预测的分类与回归:

分类就是将指定的数据归入特定的分类的过程。分类可以使用如:分类规则、决策树、数学公式或者神经网络。

回归用来预测趋势,以建立模型。

而相关分析通常是在分类与回归之前进行,以确定哪些属性对结果的影响比较在,哪些对结果没有影响等,以更精确的得到预测的结果。

例如对于图书,可以进行分类,如:好书、一般的书和差书,甚至根据特定的规则,将类别标签分的更细。至于分类的方法,在后面的章节中会有更详细的描述。

聚类分析

在没有特定的标记之前,可以使用聚类产生类标号。对象根据最大化类内的相似性,最小化类间的相似性的原则进行聚类或分组。

离群点分析

通常的应用对聚集在一起的点会更感兴趣,但是某些特定的应用中,会对离群的点进行分析,比如欺诈检测、诈骗识别等。

时间: 2024-09-20 10:56:52

跟我一起数据挖掘(2)——挖掘模式的相关文章

【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍

        这次课程主要讲述一个关于Kmeans聚类的数据分析案例,通过这个案例让同学们简单了解大数据分析的基本流程,以及使用Python实现相关的聚类分析.         主要内容包括:         1.Anaconda软件的安装过程及简单配置         2.聚类及Kmeans算法介绍        3.案例分析:Kmeans实现运动员位置聚集         前文推荐:[Python数据挖掘课程]一.安装Python及爬虫入门介绍         希望这篇文章对你有所帮助,尤

【Python数据挖掘课程】四.决策树DTC数据分析及鸢尾数据集分析

        今天主要讲述的内容是关于决策树的知识,主要包括以下内容:         1.分类及决策树算法介绍         2.鸢尾花卉数据集介绍         3.决策树实现鸢尾数据集分析         前文推荐:       [Python数据挖掘课程]一.安装Python及爬虫入门介绍       [Python数据挖掘课程]二.Kmeans聚类数据分析及Anaconda介绍        [Python数据挖掘课程]三.Kmeans聚类代码实现.作业及优化        希望

《Python数据挖掘:概念、方法与实践》扩展你的数据挖掘工具箱

本节书摘来自华章出版社<SAFe 4.0参考指南:精益软件与系统工程的规模化敏捷框架>一书中的第1章,第1节,作者[美] 梅甘·斯夸尔(Megan Squire)更多章节内容可以访问"华章计算机"公众号查看. 扩展你的数据挖掘工具箱 面对感官信息时,人类自然想要寻找模式,对其进行区别.分类和预测.这种寻找周围模式的过程是人类的基本活动,人类的大脑对此很擅长.利用这种技能,我们的祖先更好地掌握了狩猎.聚会.烹饪和组织知识.因此,人类最早计算机化的任务是模式识别和模式预测也就不

R语言数据挖掘

数据分析与决策技术丛书 R语言数据挖掘 Learning Data Mining with R [哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel) 著 李洪成 许金炜 段力辉 译 图书在版编目(CIP)数据 R语言数据挖掘 / (哈)贝特·麦克哈贝尔(Bater Makhabel)著:李洪成,许金炜,段力辉译. -北京:机械工业出版社,2016.9 (数据分析与决策技术丛书) 书名原文:Learning Data Mining with R ISBN 978-7-111-54769-

做好数据挖掘模型的9条经验总结

数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识. 当前的数据挖掘形式,是在20世纪90年代实践领域诞生的,是在集成数据挖掘算法平台发展的支撑下适合商业分析的一种形式.也许是因为数据挖掘源于实践而非 理论,在其过程的理解上不太引人注意.20世纪90年代晚期发展的CRISP-DM,逐渐成为数据挖掘过程的一种标准化过程,被越来越多的数据挖掘实践者成功运用和遵循. 虽然CRISP-DM能够指导如何实施数据挖掘,但是它不能解释数据挖掘是什么或者为

《Python数据挖掘:概念、方法与实践》一 第1章 扩展你的数据挖掘工具箱

 本节书摘来自华章出版社<Python数据挖掘:概念.方法与实践>一书中的第1章,第1.1节,作者[美] 梅甘·斯夸尔(Megan Squire),更多章节内容可以访问"华章计算机"公众号查看. 第1章 扩展你的数据挖掘工具箱 面对感官信息时,人类自然想要寻找模式,对其进行区别.分类和预测.这种寻找周围模式的过程是人类的基本活动,人类的大脑对此很擅长.利用这种技能,我们的祖先更好地掌握了狩猎.聚会.烹饪和组织知识.因此,人类最早计算机化的任务是模式识别和模式预测也就不足为奇

《R语言数据挖掘》----1.6 网络数据挖掘

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.6节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.6 网络数据挖掘 网络挖掘的目的是从网络超链接结构.网页和使用数据来发现有用的信息或知识.网络是作为数据挖掘应用输入的最大数据源之一. 网络数据挖掘基于信息检索.机器学习(Machine Learning,ML).统计学.模式识别和数据挖掘.尽管很多数据挖掘方法

对以“孵化器”模式推进气象大数据应用的思考

中国气象局党组提出" 智慧气象" 理念, 并把" 智慧气象"作为气象与经济社会融合发展的重要支撑.转变气象发展方式的重要途径.全面推进气象现代化的重要突破.下面结合对贵阳大数据交易所的调研,就"智慧气象"建设中气象数据和相关行业数据的深度融合和挖掘谈些思考: 贵阳大数据交易所是经贵州省政府批准成立的以大数据命名的交易所,交易的并不是底层数据,而是基于底层数据,通过数据的清洗.分析.建模.可视化出来的结果. 通过调研, 数据交易操作方式有两种: 一

《Python数据挖掘:概念、方法与实践》——1.1节什么是数据挖掘

1.1 什么是数据挖掘前文解释了数据挖掘的目标是找出数据中的模式,但是细看之下,这一过分简单的解释就站不住脚.毕竟,寻找模式难道不也是经典统计学.商业分析.机器学习甚至更新的数据科学或者大数据的目标吗?数据挖掘和其他这些领域有什么差别呢?当我们实际上是忙于挖掘模式时,为什么将其称作"数据挖掘"?我们不是已经有数据了吗?从一开始,"数据挖掘"这一术语就明显有许多问题.这个术语最初是统计学家们对盲目调查的轻蔑叫法,在这种调查中,数据分析人员在没有首先形成合适假设的情况下