机器学习——支持向量机SVM在R中的实现

支持向量机是一个相对较新和较先进的机器学习技术,最初提出是为了解决二类分类问题,现在被广泛用于解决多类非线性分类问题和回归问题。继续阅读本文,你将学习到支持向量机如何工作,以及如何利用R语言实现支持向量机。

支持向量机如何工作?

简单介绍下支持向量机是做什么的:

假设你的数据点分为两类,支持向量机试图寻找最优的一条线(超平面),使得离这条线最近的点与其他类中的点的距离最大。有些时候,一个类的边界上的点可能越过超平面落在了错误的一边,或者和超平面重合,这种情况下,需要将这些点的权重降低,以减小它们的重要性。

这种情况下,“支持向量”就是那些落在分离超平面边缘的数据点形成的线。

无法确定分类线(线性超平面)时该怎么办?

此时可以将数据点投影到一个高维空间,在高维空间中它们可能就变得线性可分了。它会将问题作为一个带约束的最优化问题来定义和解决,其目的是为了最大化两个类的边界之间的距离。

我的数据点多于两个类时该怎么办?

此时支持向量机仍将问题看做一个二元分类问题,但这次会有多个支持向量机用来两两区分每一个类,直到所有的类之间都有区别。

工程实例

让我们看一下如何使用支持向量机实现二元分类器,使用的数据是来自MASS包的cats数据集。在本例中你将尝试使用体重和心脏重量来预测一只猫的性别。我们拿数据集中20%的数据点,用于测试模型的准确性(在其余的80%的数据上建立模型)。

1

2

3

4

# Setup

# 先需要安装SVM包e1071;

library(e1071)

data(cats, package="MASS")

inputData <- data.frame(cats[, c (2,3)], response = as.factor(cats$Sex)) # response as factor

线性支持向量机

传递给函数svm()的关键参数是kernel、cost和gamma。Kernel指的是支持向量机的类型,它可能是线性SVM、多项式SVM、径向SVM或Sigmoid SVM。Cost是违反约束时的成本函数,gamma是除线性SVM外其余所有SVM都使用的一个参数。还有一个类型参数,用于指定该模型是用于回归、分类还是异常检测。但是这个参数不需要显式地设置,因为支持向量机会基于响应变量的类别自动检测这个参数,响应变量的类别可能是一个因子或一个连续变量。所以对于分类问题,一定要把你的响应变量作为一个因子。

1

2

3

4

5

6

# linear SVM

svmfit<-svm(response~.,data=inputData,kernel="linear",cost=10,scale=FALSE)#
linear svm, scaling turned OFF

print(svmfit)

plot(svmfit,inputData)

compareTable<-table(inputData$response,predict(svmfit))  #
tabulate

mean(inputData$response!=predict(svmfit))#
19.44% misclassification error

径向支持向量机

径向基函数作为一个受欢迎的内核函数,可以通过设置内核参数作为“radial”来使用。当使用一个带有“radial”的内核时,结果中的超平面就不需要是一个线性的了。通常定义一个弯曲的区域来界定类别之间的分隔,这也往往导致相同的训练数据,更高的准确度。

1

2

3

4

5

6

# radial SVM

svmfit <- svm(response ~ ., data = inputData, kernel = "radial", cost = 10, scale = FALSE) # radial svm, scaling turned OFF

print(svmfit)

plot(svmfit, inputData)

compareTable <- table (inputData$response, predict(svmfit))  # tabulate

mean(inputData$response != predict(svmfit)) # 18.75% misclassification error

寻找最优参数

你可以使用tune.svm()函数,来寻找svm()函数的最优参数。

1

2

3

4

5

6

7

8

9

10

### Tuning

# Prepare training and test data

set.seed(100)#
for reproducing results

rowIndices<-1:nrow(inputData)#
prepare row indices

sampleSize<-0.8*length(rowIndices)#
training sample size

trainingRows<-sample(rowIndices,sampleSize)#
random sampling

trainingData<-inputData[trainingRows,]#
training data

testData<-inputData[-trainingRows,]#
test data

tuned<-tune.svm(response~.,data=trainingData,gamma=10^(-6:-1),cost=10^(1:2))#
tune

summary(tuned)#
to select best gamma and cost

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

# Parameter tuning of 'svm':

#   - sampling method: 10-fold cross validation

#

# - best parameters:

#   gamma cost

# 0.001  100

#

# - best performance: 0.26

#

# - Detailed performance results:

#   gamma cost error dispersion

# 1  1e-06   10  0.36 0.09660918

# 2  1e-05   10  0.36 0.09660918

# 3  1e-04   10  0.36 0.09660918

# 4  1e-03   10  0.36 0.09660918

# 5  1e-02   10  0.27 0.20027759

# 6  1e-01   10  0.27 0.14944341

# 7  1e-06  100  0.36 0.09660918

# 8  1e-05  100  0.36 0.09660918

# 9  1e-04  100  0.36 0.09660918

# 10 1e-03  100  0.26 0.18378732

# 11 1e-02  100  0.26 0.17763883

# 12 1e-01  100  0.26 0.15055453

结果证明,当cost为100,gamma为0.001时产生最小的错误率。利用这些参数训练径向支持向量机。

1

2

3

4

5

svmfit<-svm(response~.,data=trainingData,kernel="radial",cost=100,gamma=0.001,scale=FALSE)#
radial svm, scaling turned OFF

print(svmfit)

plot(svmfit,trainingData)

compareTable<-table(testData$response,predict(svmfit,testData))  #
comparison table

mean(testData$response!=predict(svmfit,testData))#
13.79% misclassification error

1

2

3

F   M

F   6   3

M  1   19

网格图

一个2-色的网格图,能让结果看起来更清楚,它将图的区域指定为利用SVM分类器得到的结果的类别。在下边的例子中,这样的网格图中有很多数据点,并且通过数据点上的倾斜的方格来标记支持向量上的点。很明显,在这种情况下,有很多越过边界违反约束的点,但在SVM内部它们的权重都被降低了。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

# Grid Plot

n_points_in_grid=60
#num
grid points in a line

x_axis_range&lt;-range(inputData[,2])#
range of X axis

y_axis_range&lt;-range(inputData[,1])#
range of Y axis

X_grid_points&lt;-seq(from=x_axis_range[1],to=x_axis_range[2],length=n_points_in_grid)#
grid points along x-axis

Y_grid_points&lt;-seq(from=y_axis_range[1],to=y_axis_range[2],length=n_points_in_grid)#
grid points along y-axis

ll_grid_points&lt;-expand.grid(X_grid_points,Y_grid_points)#
generate all grid points

names(all_grid_points)&lt;-c(&quot;Hwt&quot;,&quot;Bwt&quot;)#
rename

all_points_predited&lt;-predict(svmfit,all_grid_points)#
predict for all points in grid

color_array&lt;-c(&quot;red&quot;,&quot;blue&quot;)[as.numeric(all_points_predited)]#
colors for all points based on predictions

plot(all_grid_points,col=color_array,pch=20,cex=0.25)#
plot all grid points

points(x=trainingData$Hwt,y=trainingData$Bwt,col=c(&quot;red&quot;,&quot;blue&quot;)[as.numeric(trainingData$response)],pch=19)#
plot data points

points(trainingData[svmfit$index,c(2,1)],pch=5,cex=2)#
plot support vectors

时间: 2024-09-12 07:32:33

机器学习——支持向量机SVM在R中的实现的相关文章

独家 | 教你在R中使用Keras和TensorFlow构建深度学习模型

引言: 在R和Python之间如何进行选择一直是一个热议的话题.机器学习世界也被不同语言偏好所划分.但是随着深度学习的盛行,天平逐渐向Python倾斜,因为截至目前为止Python具有大量R所没有的深度学习的资源库和框架. 我个人从R转到Python是因为我想更加深入机器学习的领域,而仅仅使用R的话,这(在之前)是几乎不可能实现的事情.不过也仅此而已! 随着Keras在R中的实现,语言选择的斗争又重新回到舞台中央.Python几乎已经慢慢变成深度学习建模的默认语言,但是随着在R中以TensorF

跟我一起数据挖掘(16)——R中的线性回归

一元回归 我们使用R中自带的数据集trees.其中包含了Volume(体积).Girth(树围).Height(树高)这三个变量.我们需要看的是体积和树转的关系. 查看数据集: > head(trees) Girth Height Volume 1 8.3 70 10.3 2 8.6 65 10.3 3 8.8 63 10.2 4 10.5 72 16.4 5 10.7 81 18.8 6 10.8 83 19.7 首先使用plot,看一下这两个变量的分布情况 plot(Volume~Girth

《量化金融R语言高级教程》一2.2 在R中建模

2.2 在R中建模 在接下来的部分中,我们将会学习在R的帮助下如何实现先前讲过的模型. 2.2.1 数据选择 在第4章大数据-高级分析中,我们将会详细讨论获取开源数据及对其进行高效处理的各种知识与方法.在这里,我们仅仅讲述股票价格时间序列和其他相关信息如何获取和如何用于因素模型估计. 我们使用quantmod包来收集数据库. 以下是在R中实现的代码: library(quantmod) stocks <- stockSymbols() 然后,我们需要等待几秒钟获取数据,接着可以看到输出: Fet

在R中使用开源大规模预测工具Prophet

Prophet 是 Facebook 推出的开源大规模预测工具,可以在 R 和 Python 中使用以预测时间序列数据. 下面将简单介绍 Prophet 在 R 中的使用. 一.基础介绍 下面实例中使用的是佩顿 · 曼宁的维基百科主页每日访问量的时间序列数据(2007/12/10 – 2016/01/20).我们使用 R 中的 Wikipediatrend 包获取该数据集.这个数据集具有多季节周期性.不断变化的增长率和可以拟合特定日期(例如佩顿 · 曼宁的决赛和超级碗)的情况等 Prophet

《数据科学:R语言实现》—— 第1章 R中的函数 1.1 引言

第1章 R中的函数 1.1 引言 R语言是数据科学家的主流编程语言.基于著名的数据分析网站KDnuggets的民意测验,3项(2012年到2014年)的调查显示,R语言在数据分析.数据挖掘和数据科学领域中是最受欢迎的语言.对许多数据科学家来说,R语言不仅是一门编程语言,而且相关软件还提供了交互式的开发环境,支持运行各种数据分析任务. R语言在数据操作和分析方面有许多优势.下面是3个最显著的优势. 这些优势使得复杂的数据分析变得更加简单易行.对此,R语言用户都深信不疑.而且,R语言尤其适合基础用户

《数据科学:R语言实现》——第1章 R中的函数

第1章 R中的函数1.1 引言R语言是数据科学家的主流编程语言.基于著名的数据分析网站KDnuggets的民意测验,3项(2012年到2014年)的调查显示,R语言在数据分析.数据挖掘和数据科学领域中是最受欢迎的语言.对许多数据科学家来说,R语言不仅是一门编程语言,而且相关软件还提供了交互式的开发环境,支持运行各种数据分析任务.R语言在数据操作和分析方面有许多优势.下面是3个最显著的优势.开源并且免费:用户使用SAS或者SPSS需要购买使用许可.而用户使用R语言是免费的,并且可以方便地学习如何实

支持向量机(SVM)笔记

SVM 1.概述 SVM全称Support_Vector_Machine,即支持向量机,是机器学习中的一种监督学习分类算法,一般用于二分类问题.对于线性可分的二分类问题,SVM可以直接求解,对于非线性可分问题,其也可以通过核函数将低维映射到高维空间从而转变为线性可分.对于多分类问题,SVM经过适当的转换,也能加以解决.相对于传统的分类算法如logistic回归,k近邻法,决策树,感知机,高斯判别分析法(GDA)等,SVM尤其独到的优势.相对于神经网络复杂的训练计算量,SVM在训练方面较少计算量的

《机器学习实践应用》书中源代码

下载地址:https://github.com/jimenbian/GarvinBook 注:本书代码部分参考了互联网资源,已在书中注明引用. 本项目代码严格遵循MIT开源协议,请大家用于参考和学习用途,谢谢. 文件夹名对应书中章节代码. 购书链接: https://item.jd.com/12114501.html 本书简介 <机器学习实践应用>是人民出版社于2017年7月出版的图书,作者李博.书中通过将机器学习算法与实际业务场景结合,让读者可以快速入门并使用高深的算法.在本书中,对整个数据

实践!如何用阿里云的机器学习得出泰坦尼克号沉船事件中谁有更大的概率获救

阿里云机器学习平台是一套基于MaxCompute(阿里云分布式计算引擎)的数据挖掘.建模.预测的工具.它提供算法开发.分享.模型训练.部署.监控等一站式算法服务,用户可以通过可视化的操作界面来操作整个实验流程,同时也支持PAI命令,让用户通过命令行来操作实验. 该平台沉淀了阿里巴巴的机器学习算法体系和经验,从数据的预处理.到机器学习算法.模型的评估和预测动能. 操作界面 阿里云机器学习平台架构 阿里云机器学习平台的架构图 通过上面的架构图就可以看出,用户可以通过可视化界面实现实验的搭建服务,底层