《R语言与数据挖掘最佳实践和经典案例》—— 1.3 数据集

1.3 数据集

本节简单地介绍本书中将要使用到的数据集。

1.3.1 iris数据集

在许多的科研著作中都在iris数据集上做分类操作。该数据集由3种不同类型的鸢尾花的50个样本数据构成 [Frank and Asuncion,2010]。其中的一个种类与另外两个种类是线性可分离的,后两个种类是非线性可分离的。这个数据集包含了5个属性:
Sepal.Length(花萼长度),单位是cm。
Sepal.Width(花萼宽度),单位是cm。
Petal.Length(花瓣长度),单位是cm。
Petal.Width(花瓣宽度),单位是cm。
种类:Iris Setosa(山鸢尾)、Iris Versicolour(杂色鸢尾),以及Iris Virginica(维吉尼亚鸢尾)。

1.3.2 Bodyfat数据集

Bodyfat数据集由mboost包[Hothorn et al.,2012]提供。该数据集包含71行,每一行代表一个客户的信息。数据集包含10列数值型数据。
age:年龄。
DEXfat:以DXA计算的体脂重,响应变量。
waistcirc:腰围。
hipcirc:臀围。
elbowbreadth:肘宽。
kneebreadth:膝宽。
anthro3a:三项人体测量的对数和。
anthro3b:三项人体测量的对数和。
anthro3c:三项人体测量的对数和。
anthro4:三项人体测量的对数和。
DEXfat的值可通过其他的变量预测得到。

时间: 2024-07-29 10:57:12

《R语言与数据挖掘最佳实践和经典案例》—— 1.3 数据集的相关文章

《R语言与数据挖掘最佳实践和经典案例》—— 导读

前言 数据挖掘自产生以来就是以分析数据.理解数据的实际需求为推动力的,其研究发展也逐步渗透到工业.农业.医疗卫生和商业的实际需求当中.R语言是在S语言的基础上逐步衍生出来的致力于数据统计分析与制图的语言.目前开源软件R也成为了世界上最流行的数据分析和处理工具之一,在学术研究和商业应用中都得到了广大数据分析者的青睐. 本书不是一本入门指导书,没有详细介绍数据挖掘技术的概念和理论,也没有介绍R语言的语言环境和语法规则,每一章节都结合具体例子详细介绍了R语言在数据挖掘的数据分析中的使用,实用性强.本书

《R语言与数据挖掘最佳实践和经典案例》—— 第1章 简  介

第1章 简 介 本书主要介绍使用R工具进行数据挖掘,将给出在R中实现数据挖掘功能的许多例子,以及3个真实应用场景的案例.本书适合硕士研究生.研究人员和想要使用R工具进行数据挖掘研究和项目的数据挖掘工程师.我们假定读者已经具备基础的数据挖掘知识,并且接触过R语言.我们希望能够通过这本书鼓励更多的人在他们的研究与应用中使用R进行数据挖掘工作.本章主要介绍一些关于数据挖掘的基本概念和技术,包括数据挖掘的过程和常用的数据挖掘技术.同时,还将介绍R语言,以及进行数据挖掘时常用的R程序包.函数和任务视图.本

《R语言与数据挖掘最佳实践和经典案例》—— 2.3 从SAS中导入数据

2.3 从SAS中导入数据 foreign包[R-core,2012]提供了函数read.ssd(),该函数可以将SAS中的数据集(.sas7bdat文件)导入R中.下面是成功导入数据所需要遵循的几个关键点: 你的计算机中必须成功安装了SAS,函数read.ssd()将调用SAS来读取SAS数据集,并将读取的数据集导入R中. SAS数据集的文件名长度不能超过8个字符.否则,数据的导入将会失败.而从.CSV文件中导入数据集时没有该限制. 在数据导入的过程中,如果变量名超过8个字符将会被截断为8个字

《R语言与数据挖掘最佳实践和经典案例》—— 第2章 数据的导入与导出

第2章 数据的导入与导出 本章将介绍如何将外部数据导入R中,以及将R对象导出到其他格式的文件中.首先,我们将给出将R对象保存到.Rdata文件并从.Rdata文件中加载R对象的例子:然后分别演示从.CSV文件.SAS数据库.ODBC数据库以及EXCEL文件中导入与导出数据.读者想要了解更多关于数据导入与导出的详细内容可以参考<R Data Import/Export>[R核心开发团队,2010a].

《R语言与数据挖掘最佳实践和经典案例》—— 第3章 数 据 探 索

第3章 数 据 探 索 本章将介绍一个使用R进行数据探索的例子.首先,我们查看R对象的维度.结构和数据.其次,介绍基础统计以及各种图表,例如饼图.直方图.再次,演示不同变量的探索性分析,包括分组分布.分组盒图.散布图和配对的散布图矩阵,同样也将给出等级图.等高图以及3D散布图的例子.最后,演示如何将这些图表保存到各种不同格式的文件中.

《R语言与数据挖掘最佳实践和经典案例》—— 3.4 更多探索

3.4 更多探索 本节将介绍一些图像,包括3D散布图.等级图.等高图.交互图以及平行坐标.一个3D散布图可以通过scatterplot3d包[Ligges and M鋍hler, 2003]生成(见图3-9). rgl包[Adler and Murdoch,2012]提供了函数plot3d()来支持交互3D散布图. 热区图是一个数据矩阵的2D展示,可以由R中的函数heatmap()绘制而成.通过下面的代码,我们使用函数dist()计算iris数据中不同鸢尾花的相似度,并且绘制热区图(见图3-10

《R语言与数据挖掘最佳实践和经典案例》—— 3.1 查看数据

3.1 查看数据 这一章将使用iris数据来演示如何使用R进行数据探索.回顾1.3.1节中iris数据的详细介绍.首先,我们要查看iris数据集的大小和结构,其维度和名称分别使用函数dim()和names()获取.函数str()和attributes()返回数据的结构和属性. 接下来,查看数据集的前5行,返回第一行和最后一行分别使用函数head()和tail(). 我们还可以查找某一列的值,例如,下面的两行代码都可以用来获取到Sepal.Length的前10个值.

《R语言与数据挖掘最佳实践和经典案例》—— 3.5 将图表保存到文件中

3.5 将图表保存到文件中 如果在数据探索的过程中生成了大量的图表,一种好的做法就是将所有的图表保存到一个文件中.R提供了很多函数用于保存图表.下面的例子分别使用函数pdf()和postscript()将图表保存到PDF文件和PS文件中.BMP.JPEG.PNG和TIFF格式的图像文件可以分别由函数bmp().jpeg().png()和tiff()生成.需要注意的是,这些文件(或图像设备)在图像绘制完成后,需要使用函数graphics.off()或dev.off()关闭.

《R语言与数据挖掘最佳实践和经典案例》—— 2.4 通过ODBC导入与导出数据

2.4 通过ODBC导入与导出数据 RODBC包提供了ODBC数据库的连接[Ripley and from 1999 to Oct 2002 Michael Lapsley,2012]. 2.4.1 从数据库中读取数据 下面是一个从ODBC数据库读取数据的例子.函数odbcConnect()建立了一个数据库连接,函数sqlQuery()向数据库发送一个SQL查询,而函数odbcClose()关闭数据库连接. 此外,函数sqlSave()和sqlUpdate()用于写入或更新一个ODBC数据库表.

《R语言与数据挖掘最佳实践和经典案例》—— 3.3 探索多个变量

3.3 探索多个变量 查看了单个变量的分布后,还需要探索两个变量之间的关系.下面我们使用函数cov()和cor()分别计算变量之间的协方差和相关系数. 接下来,使用函数aggregate()计算每一个鸢尾花种(Species)的Sepal.Length的统计数据. 然后,使用函数boxplot()绘制盒图(又称为盒形-虚线图),以展示数据分布的中位数.第一四分位数和第三四分位数(即累积分布中的位于50%.25%.75%位置上的点),以及离群点.盒图中间的横线表示中位数.图(3-5)显示了四分位差