本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.1节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问“华章计算机”公众号查看。
第1章
预备知识
本章中,你将学习基本的数据挖掘术语,比如数据定义、预处理等。
最重要的数据挖掘算法将通过R语言进行说明,以便帮助你快速掌握原理,包括但不局限于分类、聚类和异常值检测。在深入研究数据挖掘之前,我们来看一看将要介绍的主题:
数据挖掘
社交网络挖掘
文本挖掘
网络数据挖掘
为什么选择R
统计学
机器学习
数据属性与描述
数据测量
数据清洗
数据集成
数据降维
数据变换与离散化
结果可视化
在人类历史上,来自每个方面的数据结果都是广泛的,例如网站、由用户的电子邮件或姓名或账户构成的社交网络、搜索词、地图上的位置、公司、IP地址、书籍、电影、音乐和产品。
数据挖掘技术可应用于任何类型的旧数据或者新数据,每种数据类型都可以运用特定的技术(并不需要全部技术)得到最好的处理。也就是说,数据挖掘技术受到数据类型、数据集大小以及任务应用环境等条件的限制。每一种数据集都有自己适合的数据挖掘解决方案。
一旦旧的数据挖掘技术不能应用于新的数据类型或者如果新的数据类型不能转换成传统的数据类型,那么总是需要研究新的数据挖掘技术。应用于Twitter庞大资源集的流数据挖掘算法的演变是一个典型的例子,针对社交网络开发的图挖掘算法是另一个例子。
最流行且最基本的数据形式来自数据库、数据仓库、有序数据或者序列数据、图形数据以及文本数据等。换句话说,它们是联合数据、高维数据、纵向数据、流数据、网络数据、数值数据、分类数据或者文本数据。
1.1 大数据
大数据是数据量很大的数据,它不适合存储在单台机器中。也就是说,在研究大数据时,数据本身的大小成为了问题的一部分。除了容量(Volume),大数据的其他两个主要特征就是多样性(Variety)和速度(Velocity),这就是大数据著名的三个特征。速度指的是数据处理的速率或者数据处理有多快;多样性指的是各种数据源类型。大数据源集合产生的噪声更频繁并且影响挖掘的结果,这就需要高效的数据预处理算法。
因此,分布式文件系统用来作为对大量数据成功执行并行算法的工具,可以肯定的是,每过1秒,我们将得到更多的数据。数据分析和可视化技术是与海量数据相关的数据挖掘任务的主要部分。海量数据的特性吸引了许多与平台相关的新的数据挖掘技术,其中一个就是RHadoop。我们将在后面的内容中对它进行描述。
大数据中的一些重要数据类型如下所述:
第一种数据类型来自摄像机视频,它包含了用于加快犯罪调查分析、增强零售分析以及军事情报分析等更多的元数据。
第二种数据类型来自嵌入式的传感器,如医用传感器,用来监测病毒的任何潜在爆发。
第三种数据类型来自娱乐,由任何人通过社交媒体自由发布的信息。
第四种数据类型来自消费者图像,它们源自社交媒体,像这种图像的标注是很重要的。
下面的表说明了数据大小增长的历史。该表显示信息每两年翻一番多,改变着研究人员或者公司的管理方式,通过数据挖掘技术从数据中获取价值,揭示着新的数据挖掘研究。
可扩展性和效率
效率、可扩展性、性能、优化以及实时执行的能力对于几乎所有的算法都是很重要的问题,它对数据挖掘也是如此。数据挖掘算法始终有一些必要的衡量指标或者基准因素。
随着数据量的持续增长,保持数据挖掘算法的效率和可扩展性对于有效地从众多数据存储库或数据流中的海量数据集里提取信息是很有必要的。
从单台机器到广泛分布的数据存储、众多数据集的庞大规模以及数据挖掘方法计算的复杂性,这些都是驱动并行和分布式数据密集型挖掘算法发展的因素。