R语言 决策树和随机森林 回归分析

【R语言进行数据挖掘】决策树和随机森林

1、使用包party建立决策树

这一节学习使用包party里面的函数ctree()为数据集iris建立一个决策树。属性Sepal.Length(萼片长度)、
Sepal.Width(萼片宽度)、Petal.Length(花瓣长度)以及Petal.Width(花瓣宽度)被用来预测鸢尾花的
Species(种类)。在这个包里面,函数ctree()建立了一个决策树,predict()预测另外一个数据集。

在建立模型之前,iris(鸢尾花)数据集被分为两个子集:训练集(70%)和测试集(30%)。使用随机种子设置固定的随机数,可以使得随机选取的数据是可重复利用的。

观察鸢尾花数据集的结构

str(iris)

设置随机数起点为1234

set.seed(1234)

使用sample函数抽取样本,将数据集中观测值分为两个子集

ind <- sample(2, nrow(iris), replace=TRUE, prob=c(0.7, 0.3))

样本的第一部分为训练集

trainData <- iris[ind==1,]

样本的第二部分为测试集

testData <- iris[ind==2,]

加载包party建立一个决策树,并检测预测见过。函数ctree()提供一些参数例如MinSplit, MinBusket, MaxSurrogate 和
MaxDepth用来控制决策树的训练。下面我们将会使用默认的参数设置去建立决策树,至于具体的参数设置可以通过?party查看函数文档。下面的代码中,myFormula公式中的Species(种类)是目标变量,其他变量是独立变量。

library(party)

符号'~'是连接方程或公式左右两边的符号

myFormula <- Species ~ Sepal.Length + Sepal.Width + Petal.Length +
Petal.Width

建立决策树

iris_ctree <- ctree(myFormula, data=trainData)

检测预测值

table(predict(iris_ctree), trainData$Species)

显示结果如下:


由上图可知,setosa(山鸢尾)40观测值全部正确预测,而versicolor(变色鸢尾)有一个观测值被误判为virginica(维吉尼亚鸢尾),virginica(维吉尼亚鸢尾)有3个观测值被误判为versicolor(变色鸢尾)。

打印决策树

print(iris_ctree)

plot(iris_ctree)

plot(iris_ctree, type="simple")



在图1中,每一个叶子的节点的条形图都显示了观测值落入三个品种的概率。在图2中,这些概率以每个叶子结点中的y值表示。例如:结点2里面的标签是 “n=40
y=(1,0,0)”,指的是这一类中一共有40个观测值,并且所有的观测值的类别都属于第一类setosa(山鸢尾)。

接下来,需要使用测试集测试决策树。

在测试集上测试决策树

testPred <- predict(iris_ctree, newdata = testData)

table(testPred, testData$Species)

结果如下:


从上图的结果可知,决策树对变色鸢尾和维吉尼亚鸢尾的识别仍然有误判。因此ctree()现在的版本并不能很好的处理部分属性不明确的值,在实例中既有可能被判到左子树,有时候也会被判到右子树上。

2、使用包rpart建立决策树


rpart这个包在本节中被用来在'bodyfat'这个数据集的基础上建立决策树。函数raprt()可以建立一个决策树,并且可以选择最小误差的预测。然后利用该决策树使用predict()预测另外一个数据集。

首先,加载bodyfat这个数据集,并查看它的一些属性。

data("bodyfat", package = "TH.data")

dim(bodyfat)

attributes(bodyfat)

bodyfat[1:5,]

跟第1节一样,将数据集分为训练集和测试集,并根据训练集建立决策树。

set.seed(1234)

ind <- sample(2, nrow(bodyfat), replace=TRUE, prob=c(0.7, 0.3))

bodyfat.train <- bodyfat[ind==1,]

bodyfat.test <- bodyfat[ind==2,]

library(rpart)

编写公式myFormula

myFormula <- DEXfat ~ age + waistcirc + hipcirc + elbowbreadth +
kneebreadth

训练决策树

bodyfat_rpart <- rpart(myFormula, data = bodyfat.train,

control = rpart.control(minsplit = 10))

画决策树

plot(bodyfat_rpart)

添加文本标签

text(bodyfat_rpart, use.n=T)

结果如下图所示:


选择预测误差最小值的预测树,从而优化模型。

opt <- which.min(bodyfat_rpart$cptable[,"xerror"])

cp <- bodyfat_rpart$cptable[opt, "CP"]

bodyfat_prune <- prune(bodyfat_rpart, cp = cp)

plot(bodyfat_rpart)

text(bodyfat_rpart, use.n=T)

优化后的决策树如下:


对比结果就会发现,优化模型后,就是将hipcirc<99.5这个分层给去掉了,也许是因为这个分层没有必要,那么大家可以思考一下选择预测误差最小的结果的决策树的分层反而没有那么细。

之后,优化后的决策树将会用来预测,预测的结果会与实际的值进行对比。下面的代码中,使用函数abline()绘制一条斜线。一个好的模型的预测值应该是约接近真实值越好,也就是说大部分的点应该落在斜线上面或者在斜线附近。

根据测试集预测

DEXfat_pred <- predict(bodyfat_prune, newdata=bodyfat.test)

预测值的极值

xlim <- range(bodyfat$DEXfat)

plot(DEXfat_pred ~ DEXfat, data=bodyfat.test, xlab="Observed",

ylab="Predicted", ylim=xlim, xlim=xlim)

abline(a=0, b=1)

绘制结果如下:



3、随机森林


我们使用包randomForest并利用鸢尾花数据建立一个预测模型。包里面的randomForest()函数有两点不足:第一,它不能处理缺失值,使得用户必须在使用该函数之前填补这些缺失值;第二,每个分类属性的最大数量不能超过32个,如果属性超过32个,那么在使用randomForest()之前那些属性必须被转化。

也可以通过另外一个包'cforest'建立随机森林,并且这个包里面的函数并不受属性的最大数量约束,尽管如此,高维的分类属性会使得它在建立随机森林的时候消耗大量的内存和时间。

ind <- sample(2, nrow(iris), replace=TRUE, prob=c(0.7, 0.3))

trainData <- iris[ind==1,]

testData <- iris[ind==2,]

library(randomForest)

Species ~ .指的是Species与其他所有属性之间的等式

rf <- randomForest(Species ~ ., data=trainData, ntree=100,
proximity=TRUE)

table(predict(rf), trainData$Species)

结果如下:


由上图的结果可知,即使在决策树中,仍然有误差,第二类和第三类话仍然会被误判,可以通过输入print(rf)知道误判率为2.88%,也可以通过输入plot(rf)绘制每一棵树的误判率的图。

最后,在测试集上测试训练集上建立的随机森林,并使用table()和margin()函数检测预测结果。

irisPred <- predict(rf, newdata=testData)

table(irisPred, testData$Species)

绘制每一个观测值被判断正确的概率图

plot(margin(rf, testData$Species))

显示结果如下:



【R语言进行数据挖掘】回归分析

1、线性回归

线性回归就是使用下面的预测函数预测未来观测量:


其中,x1,x2,...,xk都是预测变量(影响预测的因素),y是需要预测的目标变量(被预测变量)。

线性回归模型的数据来源于澳大利亚的CPI数据,选取的是2008年到2011年的季度数据。

rep函数里面的第一个参数是向量的起始时间,从2008-2010,第二个参数表示向量里面的每个元素都被4个小时间段。

year <- rep(2008:2010, each=4)

quarter <- rep(1:4, 3)

cpi <- c(162.2, 164.6, 166.5, 166.0,

166.2, 167.0, 168.6, 169.5,

171.0, 172.1, 173.3, 174.0)

plot函数中axat=“n”表示横坐标刻度的标注是没有的

plot(cpi, xaxt="n", ylab="CPI", xlab="")

绘制横坐标轴

axis(1, labels=paste(year,quarter,sep="Q"), at=1:12, las=3)

接下来,观察CPI与其他变量例如‘year(年份)’和‘quarter(季度)’之间的相关关系。

cor(year,cpi)

cor(quarter,cpi)

输出如下:

cor(quarter,cpi)

[1] 0.3738028

cor(year,cpi)

[1] 0.9096316

cor(quarter,cpi)

[1] 0.3738028

由上图可知,CPI与年度之间的关系是正相关,并且非常紧密,相关系数接近1;而它与季度之间的相关系数大约为0.37,只是有着微弱的正相关,关系并不明显。

然后使用lm()函数建立一个线性回归模型,其中年份和季度为预测因素,CPI为预测目标。

建立模型fit

fit <- lm(cpi ~ year + quarter)

fit

输出结果如下:

Call:

lm(formula = cpi ~ year + quarter)

Coefficients:

(Intercept) year quarter

-7644.488 3.888 1.167

由上面的输出结果可以建立以下模型公式计算CPI:


其中,c0、c1和c2都是模型fit的参数分别是-7644.488、3.888和1.167。因此2011年的CPI可以通过以下方式计算:

(cpi2011 <-fit$coefficients[[1]] + fit$coefficients[[2]]*2011 +

fit$coefficients[[3]]*(1:4))

输出的2011年的季度CPI数据分别是174.4417、175.6083、176.7750和177.9417。

模型的具体参数可以通过以下代码查看:

查看模型的属性

attributes(fit)

$names

[1] "coefficients" "residuals" "effects" "rank" "fitted.values"

[6] "assign" "qr" "df.residual" "xlevels" "call"

[11] "terms" "model"

$class

[1] "lm"

模型的参数

fit$coefficients

观测值与拟合的线性模型之间的误差,也称为残差

residuals(fit)

1 2 3 4 5 6 7

-0.57916667 0.65416667 1.38750000 -0.27916667 -0.46666667 -0.83333333
-0.40000000

8 9 10 11 12

-0.66666667 0.44583333 0.37916667 0.41250000 -0.05416667

除了将数据代入建立的预测模型公式中,还可以通过使用predict()预测未来的值。

输入预测时间

data2011 <- data.frame(year=2011, quarter=1:4)

cpi2011 <- predict(fit, newdata=data2011)

设置散点图上的观测值和预测值对应点的风格(颜色和形状)

style <- c(rep(1,12), rep(2,4))

plot(c(cpi, cpi2011), xaxt="n", ylab="CPI", xlab="", pch=style,
col=style)

标签中sep参数设置年份与季度之间的间隔

axis(1, at=1:16, las=3,

labels=c(paste(year,quarter,sep="Q"), "2011Q1", "2011Q2", "2011Q3",
"2011Q4"))

预测结果如下:


上图中红色的三角形就是预测值。

2、Logistic回归

Logistic回归是通过将数据拟合到一条线上并根据简历的曲线模型预测事件发生的概率。可以通过以下等式来建立一个Logistic回归模型:


其中,x1,x2,...,xk是预测因素,y是预测目标。令


,上面的等式被转换成:


使用函数glm()并设置响应变量(被解释变量)服从二项分布(family='binomial,'link='logit')建立Logistic回归模型,更多关于Logistic回归模型的内容可以通过以下链接查阅:

· R Data Analysis Examples - Logit Regression

· 《LogisticRegression (with R)》

3、广义线性模型

广义线性模型(generalizedlinear model,
GLM)是简单最小二乘回归(OLS)的扩展,响应变量(即模型的因变量)可以是正整数或分类数据,其分布为某指数分布族。其次响应变量期望值的函数(连接函数)与预测变量之间的关系为线性关系。因此在进行GLM建模时,需要指定分布类型和连接函数。这个建立模型的分布参数包括binomaial(两项分布)、gaussian(正态分布)、gamma(伽马分布)、poisson(泊松分布)等。

广义线性模型可以通过glm()函数建立,使用的数据是包‘TH.data’自带的bodyfat数据集。

data("bodyfat", package="TH.data")

myFormula <- DEXfat ~ age + waistcirc + hipcirc + elbowbreadth +
kneebreadth

设置响应变量服从正态分布,对应的连接函数服从对数分布

bodyfat.glm <- glm(myFormula, family = gaussian("log"), data =
bodyfat)

预测类型为响应变量

pred <- predict(bodyfat.glm, type="response")

plot(bodyfat$DEXfat, pred, xlab="Observed Values", ylab="Predicted
Values")

abline(a=0, b=1)

预测结果检验如下图所示:


由上图可知,模型虽然也有离群点,但是大部分的数据都是落在直线上或者附近的,也就说明模型建立的比较好,能较好的拟合数据。

4、非线性回归

如果说线性模型是拟合拟合一条最靠近数据点的直线,那么非线性模型就是通过数据拟合一条曲线。在R中可以使用函数nls()建立一个非线性回归模型,具体的使用方法可以通过输入'?nls()'查看该函数的文档。

时间: 2024-10-27 06:38:54

R语言 决策树和随机森林 回归分析的相关文章

机器学习利器——决策树和随机森林

更多深度文章,请关注:https://yq.aliyun.com/cloud 决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法.由于这种决策分支画成图形很像一棵树的枝干,故称决策树.决策树是一种基本的分类和回归方法,学习通常包含三个步骤:特征选择.决策树的生成和决策树的剪枝.在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关

干货|从决策树到随机森林:树型算法的实现原理与Python 示例

基于树(Tree based)的学习算法在数据科学竞赛中是相当常见的.这些算法给预测模型赋予了准确性.稳定性以及易解释性.和线性模型不同,它们对非线性关系也能进行很好的映射.常见的基于树的模型有:决策树.随机森林和提升树. 在本篇文章中,我们将会介绍决策树的数学细节(以及各种 Python 示例)及其优缺点.你们将会发现它们很简单,并且这些内容有助于理解.然而,与最好的监督学习方法相比,它们通常是没有竞争力的.为了克服决策树的各种缺点,我们将会聚焦于各种概念(附有 Python 实例),比如自助

从决策树到随机森林:树型算法的原理与实现

在本篇文章中,我们将会介绍决策树的数学细节(以及各种 Python 示例)及其优缺点.你们将会发现它们是很简单的,并且这些内容是有助于理解的.然而,与最好的监督学习方法相比,它们通常是没有竞争力的.为了克服决策树的各种缺点,我们将会聚焦于各种概念(附有 Python 实例),比如自助聚集或袋装(Bootstrap Aggregating or Bagging),还有随机森林(Random Forests).另一种广泛使用的提升方法会在以后进行单独讨论.每种方法都包括生成多种树,这些树被联合起来,

Python 实现的随机森林

随机森林是一个高度灵活的机器学习方法,拥有广泛的应用前景,从市场营销到医疗保健保险. 既可以用来做市场营销模拟的建模,统计客户来源,保留和流失.也可用来预测疾病的风险和病患者的易感性. 随机森林是一个可做能够回归和分类. 它具备处理大数据的特性,而且它有助于估计或变量是非常重要的基础数据建模. 这是一篇关于使用Python来实现随机森林文章. 什么是随机森林? 随机 森林 是 几乎 任何 预测 问题 (甚至 非直线 部分) 的固有 选择 . 它是 一个 相对较 新 的 机器 学习 的 策略 (

《R语言与数据挖掘最佳实践和经典案例》—— 导读

前言 数据挖掘自产生以来就是以分析数据.理解数据的实际需求为推动力的,其研究发展也逐步渗透到工业.农业.医疗卫生和商业的实际需求当中.R语言是在S语言的基础上逐步衍生出来的致力于数据统计分析与制图的语言.目前开源软件R也成为了世界上最流行的数据分析和处理工具之一,在学术研究和商业应用中都得到了广大数据分析者的青睐. 本书不是一本入门指导书,没有详细介绍数据挖掘技术的概念和理论,也没有介绍R语言的语言环境和语法规则,每一章节都结合具体例子详细介绍了R语言在数据挖掘的数据分析中的使用,实用性强.本书

机器学习算法基础(Python和R语言实现)

简介 谷歌的无人驾驶汽车已经受到了世人很大的关注,但公司的未来却是在机器学习领域,因为这项技术将使电脑更智能,更人性化.--埃里克·施密特(谷歌主席) 我们可能正经历着人类最明确定义的阶段,这个阶段计算机计算从大型主机,到个人电脑,到云计算.但这些并不是根本原因,而是接下来几年中将会发生的. 这个时期使那些像我一样的人们兴奋的是工具和技术的开放,这得以于计算机领域的蓬勃发展.今天,作为一名数据科学家,我能以很低的成本搭建一个拥有复杂算法的数据处理系统.但是达到这样的结果,我也经历了在黑夜中艰苦的

独家 | 手把手教随机森林

随机森林-概述   当变量的数量非常庞大时,你将采取什么方法来处理数据?   通常情况下,当问题非常庞杂时,我们需要一群专家而不是一个专家来解决问题.例如Linux,它是一个非常复杂的系统,因此需要成百上千的专家来搭建.   以此类推,我们能否将许多专家的决策力,并结合其在专业领域的专业知识,应用于数据科学呢?现在有一种称为"随机森林"的技术,它就是使用集体决策来改善单一决策产生的随机结果.在这种方法中,每个软件"专家"使用树型算法来完成它们的任务,然后使用这样的树

R 语言 用途 与优势

(1)R 语言主要用来 对 数据进行统计分析 (2)R语言可以针对数据 进行绘图 其高级功能如下 R语言饼图图表R语言条形图(柱状图)R语言箱线图R语言柱状图R语言线型图R语言散点图R语言均值,中位数和模式R语言线性回归R语言多元回归R语言逻辑回归R语言正态分布R语言二项分布R语言泊松回归R语言协方差分析R语言时间序列分析R语言非线性最小二乘R语言决策树R语言随机森林R语言生存分析R语言卡方检验 绘图 R编程语言在数字分析与机器学习领域已经成为一款重要的工具.随着机器逐步成为愈发核心的数据生成器

《R语言机器学习:实用案例分析》——2.3节算法家族

2.3 算法家族在机器学习领域中有大量的算法,并且每年都有越来越多的算法被设计出来.在这个领域中有大量的研究,因此算法列表在不断地增加.并且,算法的使用越多,算法的改进也就越多.机器学习是一个工业和学术共同发展的领域.但是,正如蜘蛛侠被告知的"力量越大责任越大"一样,你应该也能理解掌握机器学习带来的责任.面对如此之多可用的算法,有必要了解它们是什么,适用于何种情况.在起初或许会感到无所适从和困惑,但是把这些算法进行分类是有帮助的.机器学习算法可以通过多种方式进行分类.最普遍的方式是将它