《R语言数据挖掘》----第1章 预备知识 1.1大数据

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.1节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问“华章计算机”公众号查看。

第1章

预备知识

本章中,你将学习基本的数据挖掘术语,比如数据定义、预处理等。
最重要的数据挖掘算法将通过R语言进行说明,以便帮助你快速掌握原理,包括但不局限于分类、聚类和异常值检测。在深入研究数据挖掘之前,我们来看一看将要介绍的主题:
数据挖掘
社交网络挖掘
文本挖掘
网络数据挖掘
为什么选择R
统计学
机器学习
数据属性与描述
数据测量
数据清洗
数据集成
数据降维
数据变换与离散化
结果可视化

在人类历史上,来自每个方面的数据结果都是广泛的,例如网站、由用户的电子邮件或姓名或账户构成的社交网络、搜索词、地图上的位置、公司、IP地址、书籍、电影、音乐和产品。

数据挖掘技术可应用于任何类型的旧数据或者新数据,每种数据类型都可以运用特定的技术(并不需要全部技术)得到最好的处理。也就是说,数据挖掘技术受到数据类型、数据集大小以及任务应用环境等条件的限制。每一种数据集都有自己适合的数据挖掘解决方案。

一旦旧的数据挖掘技术不能应用于新的数据类型或者如果新的数据类型不能转换成传统的数据类型,那么总是需要研究新的数据挖掘技术。应用于Twitter庞大资源集的流数据挖掘算法的演变是一个典型的例子,针对社交网络开发的图挖掘算法是另一个例子。

最流行且最基本的数据形式来自数据库、数据仓库、有序数据或者序列数据、图形数据以及文本数据等。换句话说,它们是联合数据、高维数据、纵向数据、流数据、网络数据、数值数据、分类数据或者文本数据。

1.1 大数据

大数据是数据量很大的数据,它不适合存储在单台机器中。也就是说,在研究大数据时,数据本身的大小成为了问题的一部分。除了容量(Volume),大数据的其他两个主要特征就是多样性(Variety)和速度(Velocity),这就是大数据著名的三个特征。速度指的是数据处理的速率或者数据处理有多快;多样性指的是各种数据源类型。大数据源集合产生的噪声更频繁并且影响挖掘的结果,这就需要高效的数据预处理算法。

因此,分布式文件系统用来作为对大量数据成功执行并行算法的工具,可以肯定的是,每过1秒,我们将得到更多的数据。数据分析和可视化技术是与海量数据相关的数据挖掘任务的主要部分。海量数据的特性吸引了许多与平台相关的新的数据挖掘技术,其中一个就是RHadoop。我们将在后面的内容中对它进行描述。

大数据中的一些重要数据类型如下所述:
第一种数据类型来自摄像机视频,它包含了用于加快犯罪调查分析、增强零售分析以及军事情报分析等更多的元数据。

第二种数据类型来自嵌入式的传感器,如医用传感器,用来监测病毒的任何潜在爆发。

第三种数据类型来自娱乐,由任何人通过社交媒体自由发布的信息。

第四种数据类型来自消费者图像,它们源自社交媒体,像这种图像的标注是很重要的。

下面的表说明了数据大小增长的历史。该表显示信息每两年翻一番多,改变着研究人员或者公司的管理方式,通过数据挖掘技术从数据中获取价值,揭示着新的数据挖掘研究。

可扩展性和效率

效率、可扩展性、性能、优化以及实时执行的能力对于几乎所有的算法都是很重要的问题,它对数据挖掘也是如此。数据挖掘算法始终有一些必要的衡量指标或者基准因素。

随着数据量的持续增长,保持数据挖掘算法的效率和可扩展性对于有效地从众多数据存储库或数据流中的海量数据集里提取信息是很有必要的。

从单台机器到广泛分布的数据存储、众多数据集的庞大规模以及数据挖掘方法计算的复杂性,这些都是驱动并行和分布式数据密集型挖掘算法发展的因素。

时间: 2024-10-02 16:39:57

《R语言数据挖掘》----第1章 预备知识 1.1大数据的相关文章

R语言数据挖掘第2章 频繁模式、关联规则和相关规则挖掘

第2章 频繁模式.关联规则和相关规则挖掘 本章中,我们将首先学习如何用R语言挖掘频繁模式.关联规则及相关规则.然后,我们将使用基准数据评估所有这些方法以便确定频繁模式和规则的兴趣度.本章内容主要涵盖以下几个主题: 关联规则和关联模式概述 购物篮分析 混合关联规则挖掘 序列数据挖掘 高性能算法 关联规则挖掘算法可以从多种数据类型中发现频繁项集,包括数值数据和分类数据.根据不同的适用环境,关联规则挖掘算法会略有差异,但大多算法都基于同一个基础算法,即Apriori算法.另一个基础算法称为FP-Gro

《R语言数据挖掘:实用项目解析》——1.3 数据类型转换

1.3 数据类型转换 数据类型有很多种,比如数值型.因子型.字符型.逻辑型等.即使数据的格式没有预先处理得很好,用R把一种数据类型转换成另一种也并不困难.在改变变量类型之前,先查看现在的数据类型很关键,这可以用下面的命令实现: 当检查一个数值变量是否为数值型时,输出结果会显示为TRUE或FALSE.其他数据类型也是如此.如果任何数据类型不符合,可以通过以下代码进行转换: 在使用as.character()时,即使是一个逻辑向量,也会由逻辑型变成字符型.如果是一个数值变量,比如变量x1,因为它已经

《R语言数据挖掘》----第2章 频繁模式、关联规则和相关规则挖掘 2.1关联规则和关联模式概述

本节书摘来自华章出版社<R语言数据挖掘>一书中的第2章,第2.1节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 第2章 频繁模式.关联规则和相关规则挖掘 本章中,我们将首先学习如何用R语言挖掘频繁模式.关联规则及相关规则.然后,我们将使用基准数据评估所有这些方法以便确定频繁模式和规则的兴趣度.本章内容主要涵盖以下几个主题: 关联规则和关联模式概述 购物篮分析 混合关联规则挖掘

R语言数据挖掘

数据分析与决策技术丛书 R语言数据挖掘 Learning Data Mining with R [哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel) 著 李洪成 许金炜 段力辉 译 图书在版编目(CIP)数据 R语言数据挖掘 / (哈)贝特·麦克哈贝尔(Bater Makhabel)著:李洪成,许金炜,段力辉译. -北京:机械工业出版社,2016.9 (数据分析与决策技术丛书) 书名原文:Learning Data Mining with R ISBN 978-7-111-54769-

《R语言数据挖掘》----1.3 数据挖掘

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.3节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.3 数据挖掘 数据挖掘就是在数据中发现一个模型,它也称为探索性数据分析,即从数据中发现有用的.有效的.意想不到的且可以理解的知识.有些目标与其他科学,如统计学.人工智能.机器学习和模式识别是相同的.在大多数情况下,数据挖掘通常被视为一个算法问题.聚类.分类.关联

《R语言数据挖掘》----1.5 文本挖掘

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.5节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.5 文本挖掘 文本挖掘基于文本数据,关注从大型自然语言文本中提取相关信息,并搜寻有意义的关系.语法关系以及提取实体或各项之间的语义关联.它也被定义为自动或半自动的文本处理.相关的算法包括文本聚类.文本分类.自然语言处理和网络挖掘. 文本挖掘的特征之一是数字与文本

《R语言数据挖掘》----1.6 网络数据挖掘

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.6节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.6 网络数据挖掘 网络挖掘的目的是从网络超链接结构.网页和使用数据来发现有用的信息或知识.网络是作为数据挖掘应用输入的最大数据源之一. 网络数据挖掘基于信息检索.机器学习(Machine Learning,ML).统计学.模式识别和数据挖掘.尽管很多数据挖掘方法

《R语言数据挖掘》----1.7 为什么选择R

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.7节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.7 为什么选择R R是一种高质量.跨平台.灵活且广泛使用的开源免费语言,可用于统计学.图形学.数学和数据科学.它由统计学家创建,并为统计学家服务. R语言包含了5000多种算法以及全球范围内具备专业知识的数百万用户,并得到了充满活力且富有才华的社区贡献者的支持.

《R语言数据挖掘》----1.15 结果可视化

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.15节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.15 结果可视化 可视化是数据描述的图形表示,以便一目了然地揭示复杂的信息,包括所有类型的结构化信息表示.它包括图形.图表.图解.地图.故事板以及其他结构化的图示. 好的可视化结果使你有机会通过专家的眼光来查看数据.可视化结果很美,不仅因为它们的美学设计,而且