《R语言数据挖掘:实用项目解析》——第1章,第1.1节什么是数据挖掘

第1章
使用R内置数据进行数据处理
本书主要介绍在R语言平台上实现数据挖掘的方法和步骤。因为R是一种开源工具,所以对各层次的学习者而言,学习使用R语言进行数据挖掘都会很有意思。本书的设计宗旨是,读者可以从数据管理技术着手,从探索性数据分析、数据可视化和建模开始,直至建立高级预测模型,如推荐系统、神经网络模型等。本章将概述数据挖掘的原理及其与数据科学、分析学和统计建模的交叉。在本章,读者将初识R编程语言基础,并通过一个真实的案例,了解怎样读取和写入数据,熟悉编程符号和理解句法。本章还包含了R语言脚本,可供读者动手实践,以加深对原理和术语的理解,领会数据挖掘任务的来龙去脉。本章之所以这样设计,是为了让那些编程基础薄弱的读者也可以通过执行R语言命令来完成一些数据挖掘任务。
本章将简述数据挖掘的意义以及它与其他领域(如数据科学、分析学和统计建模)的关系,还会就使用R进行数据管理的话题展开讨论。通过学习本章的内容,读者应掌握以下知识点:
了解R语言中所使用的各种数据类型,包括向量和向量运算。
数据框的索引及因子序列。
数据框的排序与合并以及数据类型的转换。
字符串操作以及数据对象格式化。
缺失值(NA)的处理方法。
流控制、循环构建以及apply函数的应用。

1.1 什么是数据挖掘
数据挖掘可以定义为这样的过程:从现有数据库中“解读”出有意义的信息,然后加以分析,并将结果提供给业务人员。从不同数据源分析数据,进而归纳出有意义的信息和洞见——这属于统计知识的探索,不仅有助于业务人员,也有助于多个群体,如统计分析员、咨询师和数据科学家。通常,数据库中的知识探索过程是不可预知的,对探索结果也可以从多个角度进行解读。
硬件设备、平板、智能手机、计算机、传感器等电子设备的大规模增长促使数据以超前的速度产生与收集。随着现代计算机处理能力的提升,可以对增长的数据进行预处理和模型化,以解决与商业决策过程相关的各种问题。数据挖掘也可以定义为利用统计方法、机器学习技术、可视化和模式匹配技术从离散的数据库和信息资源库中进行知识密集型搜索。
零售商店内所有物品的条形码、制造业所有货物的射频识别标签、推特简讯、Facebook上的贴子、遍布城市用于监控天气变化的传感器、录像分析、基于观看信息统计的视频推荐……这些结构化和非结构化数据的增长创造了一个催生各种各样的工具、技术和方法的生态系统。前文提到应用于各种数据的数据挖掘技术,不仅提供了有用的数据结构信息,也就企业未来可采取的决策提出了建议。
数据挖掘包括以下几个步骤:
1)从数据库和数据仓库中抽取需要的数据。
2)检查数据,删除冗余特征和无关信息。
3)有时需要与其他未关联数据库中的数据相合并。所以,需要找到各个数据库的共同属性。
4)应用数据转换技术。有时,一些属性和特征需要包含在一个模型中。
5)对输入的特征值进行模式识别。这里可能会用到任何模式识别技术。
6)知识表达。其中包括把从数据库中提炼出来的知识通过可视化方式展示给利益相关者。
在讨论了数据挖掘的流程和核心组成之后,我们也需注意到实施数据挖掘时可能遇到的挑战,比如运算效率、数据库的非结构化以及怎样将其与结构化数据结合、高维数据的可视化问题,等等。这些问题可以通过创新的方法来解决。本书在项目实践中会涉及一些解决方法。
它是怎么与数据科学、分析和统计建模关联的
数据科学是个很宽泛的话题,其中也包含了一些数据挖掘的概念。根据之前对数据挖掘的定义,即它是从数据中发现隐藏模式,找出有意思的关联并能提供有用的决策支持的过程,可知数据挖掘是数据科学项目的子集,涉及模式识别、特征提取、聚类以及监督分类等技术。分析学和统计建模包含了很多预测模型——基于分类的模型,通过应用这些方法解决实际业务问题。数据科学、分析学和统计建模、数据挖掘这些术语之间明显是有重叠的,所以不应该把它们看作完全独立的术语。根据项目要求和特定的业务问题,它们重叠的部分可能有所不同。但总的来说,所有概念都是相关联的。数据挖掘过程也包括基于统计和机器学习方法来提取数据,提取自动化规则,也需要利用好的可视化方法来展示数据。

时间: 2024-09-20 07:37:12

《R语言数据挖掘:实用项目解析》——第1章,第1.1节什么是数据挖掘的相关文章

《R语言数据挖掘:实用项目解析》——第1章 使用R内置数据进行数据处理 1.1 什么是数据挖掘

第1章 使用R内置数据进行数据处理 本书主要介绍在R语言平台上实现数据挖掘的方法和步骤.因为R是一种开源工具,所以对各层次的学习者而言,学习使用R语言进行数据挖掘都会很有意思.本书的设计宗旨是,读者可以从数据管理技术着手,从探索性数据分析.数据可视化和建模开始,直至建立高级预测模型,如推荐系统.神经网络模型等.本章将概述数据挖掘的原理及其与数据科学.分析学和统计建模的交叉.在本章,读者将初识R编程语言基础,并通过一个真实的案例,了解怎样读取和写入数据,熟悉编程符号和理解句法.本章还包含了R语言脚

《R语言数据挖掘:实用项目解析》——小结

小结 通过之前的讨论可以得出这样的结论:数据处理和数据管理是很多实际数据挖掘项目执行中的重要一环.由于R语言提供了较好的统计编程平台和可视化,因此用R语言来向读者解释很多数据挖掘原理也是很有意义的.本章介绍了初步的数据挖掘和R语言原理.编程基础.R数据类型等,还介绍了使用R语言导入和导出多种格式的外部文件的方法,以及缺失值的处理方法. 下一章将深入介绍如何使用R语言进行数据探索以及如何理解一元.二元和多元数据集.读者应先了解原理,然后理解实际阐释,再通过R实现掌握与探索性数据分析相关的内容.

《R语言数据挖掘:实用项目解析》——第1章,第1.14节小结

小结通过之前的讨论可以得出这样的结论:数据处理和数据管理是很多实际数据挖掘项目执行中的重要一环.由于R语言提供了较好的统计编程平台和可视化,因此用R语言来向读者解释很多数据挖掘原理也是很有意义的.本章介绍了初步的数据挖掘和R语言原理.编程基础.R数据类型等,还介绍了使用R语言导入和导出多种格式的外部文件的方法,以及缺失值的处理方法.下一章将深入介绍如何使用R语言进行数据探索以及如何理解一元.二元和多元数据集.读者应先了解原理,然后理解实际阐释,再通过R实现掌握与探索性数据分析相关的内容.

《R语言数据挖掘:实用项目解析》——导读

前 言 随着数据规模和种类的增长,应用数据挖掘技术从大数据中提取有效信息变得至关重要.这是因为企业认为有必要从大规模数据的实施中获得相应的投资回报.实施数据挖掘的根本性原因是要从大型数据库中发现隐藏的商机,以便利益相关者能针对未来业务做出决策.数据挖掘不仅能够帮助企业降低成本以及提高收益,还能帮助他们发现新的发展途径. 本书将介绍使用R语言(一种开源工具)进行数据挖掘的基本原理.R是一门免费的程序语言,同时也是一个提供统计计算.图形数据可视化和预测建模的软件环境,并且可以与其他工具和平台相集成.

《R语言数据挖掘:实用项目解析》——1.2 R语言引论

1.2 R语言引论 本节将开始使用基础的R编程知识来做数据管理和数据处理,其中也会讲到一些编程技巧.R可以从https://www.r-project.org/ 下载.用户可以基于自己的操作系统下载和安装R二进制文件.R编程语言作为S语言的扩展,是一个统计计算平台.它提供高级预测建模.机器学习算法实施和更好的图表可视化.R还提供了适用于其他平台的插件,比如R.Net.rJava.SparkR和RHadoop,这提高了它在大数据场景下的可用性.用户可以将R脚本移植到其他编程环境中.关于R的详细信息

《R语言数据挖掘:实用项目解析》——第1章,第1.2节R语言引论

1.2 R语言引论 本节将开始使用基础的R编程知识来做数据管理和数据处理,其中也会讲到一些编程技巧.R可以从https://www.r-project.org/下载.用户可以基于自己的操作系统下载和安装R二进制文件.R编程语言作为S语言的扩展,是一个统计计算平台.它提供高级预测建模.机器学习算法实施和更好的图表可视化.R还提供了适用于其他平台的插件,比如R.Net.rJava.SparkR和RHadoop,这提高了它在大数据场景下的可用性.用户可以将R脚本移植到其他编程环境中.关于R的详细信息,

《R语言数据挖掘:实用项目解析》——1.13 缺失值(NA)的处理

1.13 缺失值(NA)的处理 缺失值处理在标准数据挖掘场景中是一个重要的任务.在R语言中,缺失值显示为NA.NA既不是字符串也不是数值型变量,它们被当作缺失值的标识.在将数据集导入R语言平台之后,必须检查所有变量,看是否存在缺失值--可使用is.na()函数.示例如下: 在上面的代码中,对象x是一个数值型向量,其中包含了一些NA值.is.na()可用于验证是否存在缺失值,如存在,则输出结果为TRUE.如果在存在NA值的情况下做计算,最终会出错或者无结果.我们可以通过修改NA值来替换数据集,或者

《R语言数据挖掘:实用项目解析》——第1章,第1.13节缺失值(NA)的处理

1.13 缺失值(NA)的处理缺失值处理在标准数据挖掘场景中是一个重要的任务.在R语言中,缺失值显示为NA.NA既不是字符串也不是数值型变量,它们被当作缺失值的标识.在将数据集导入R语言平台之后,必须检查所有变量,看是否存在缺失值--可使用is.na()函数.示例如下: 在上面的代码中,对象x是一个数值型向量,其中包含了一些NA值.is.na()可用于验证是否存在缺失值,如存在,则输出结果为TRUE.如果在存在NA值的情况下做计算,最终会出错或者无结果.我们可以通过修改NA值来替换数据集,或者可

《R语言数据挖掘:实用项目解析》——第2章,第2.7节列联表、二元统计及数据正态性检验

2.7 列联表.二元统计及数据正态性检验 列联表是由两个或多个分类变量及每个分类所占比例构成的频率表.频率表展示的是一个分类变量,而列联表用来展示两个分类变量. 我们以Cars93数据集为例,来解读列联表.二元统计和数据正态性: 前面已给出过汽车的两个分类变量AirBags和Type各自的频率表: 如上面的代码所示,conTable对象保存了两个变量的交叉表.每个单元的百分比显示在下列代码中.如果需要计算行百分比或列百分比,则需要指定相应参数的值: 若要计算行百分比,则应将值设为1.若要计算列百