《R语言游戏数据分析与挖掘》一2.1 开发环境准备和快速入门

2.1 开发环境准备和快速入门

2.1.1 R语言简介
R语言的前身是S语言,S语言是由AT &T Bell实验室的Rick Becker、John Chambers和Allan Wilks开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。而R语言最初由来自新西兰大学的Ross Ihaka和Robert Gentleman开发(由于他们的名字都以R开头,所以该软件被命名为R)。因为R语言是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不做修改地在R语言环境下运行。
R语言是一套开源的数据分析解决方案,几乎可以独立完成数据处理、数据可视化、数据建模及模型评估等工作,而且可以完美配合其他工具进行数据交互。具体来说,R语言具有以下优势:
1)R语言作为一种GNU项目,开放了全部源代码,用户可以免费下载使用和修改。
2)R语言可以运行在多种平台上,包括Windows、UNIX和Mac OS。
3)R语言可以轻松地从各种类型的数据源导入数据,包括文本文件、数据库管理系统、统计系统乃至Hadoop、Spark等。它同样可以将数据输出并写入这些系统中。
4)R语言内置多种统计学及数据分析功能。因为有S的血缘,所以R比其他统计学或数学专用的编程语言有更强的面向对象的功能。
5)R语言拥有顶尖的制图功能。不仅有 lattcie包、ggplot2包对复杂数据进行可视化,更有rCharts包、recharts包、plotly包实现数据交互可视化,甚至可以利用功能强大的shiny包实现R与Web整合部署,构建网页应用,帮助不懂CSS、HTML的用户利用R快速搭建自己的数据分析App应用。
当然,R语言也存在一些固有的缺点,目前主要的问题有如下三点:
1)R语言是一种解释型语言,和编程语言相比,速度显得略慢一些,但是随着硬件和R自身的发展,这个问题已经被慢慢弱化了,而且如果能够熟练运用向量化运算,可以大大提高速度,并且若使用R内置的分析函数,效率高很多,因为很多函数都是由C或者Fortran编写的。
2)R所有的计算实际是基于内存进行的,这就意味着,在处理数据的过程中,数据必须完整地装入内存当中,这在处理小型数据是没有任何问题的,但是当遇到大数据时,问题就会变得很严重。但是,这个问题也得到了一定的解决,可以利用并行包提升R的性能,或者利用R结合Hadoop的方式进行大数据分析工作。
3)由于R语言的自由,各种包的编写者来自不同的领域,所以在一定程度上是比较混乱的,没有统一的命名格式,参数格式不一,源代码和文档质量良莠不齐。

2.1.2 R的安装

截至目前(撰写本书时),R的最新版本是3.4.0,可以在CRAN(Comprehensive R Archive Network)获取最新版本。在https://www.r-project.org/页面点击download R可以进入CRAN镜像站地址https://cran.r-project.org/mirrors.html,其中包含中国大陆地区的7个镜像地址,你可以选择距离最近的地址进入其镜像的详细页面。此外,通过该页面可以下载Linux、MacOS和Windows操作系统的安装包。如果需要安装旧版的R,可以到https://cran.r-project.org/bin/下载对应的版本。
本书使用的是Windows操作系统下的R 3.2.2版本。直接双击下载好的R-3.2.2-win.exe进行安装即可。安装完成后,双击桌面图标启动R,打开如图2-1所示的界面。
R的界面相当简洁,只有为数不多的几个菜单栏和快捷按钮。快捷按钮下面是主控制台,它是输入脚本和执行结果窗口。

2.1.3 其他辅助工具

与传统的数据挖掘工具SAS、SPSS和IBM SPSS Modeler等软件相比,R的缺点在于没有友好的操作菜单,这会使很多熟悉其他工具的用户起初会觉得很困难。幸好,R自由的特性得到很好的发挥,有用户贡献的R包实现了很多功能的菜单化操作。下面介绍一个比较友好的编辑器和一个可以实现菜单化操作完成数据挖掘工作的包。

虽然现在有很多可用的IDE,但是现在最好用的应该是Rstudio,它是专门用于R语言环境的IDE。Rstudio可用于Windows、Mac和Linux,并且可以在Linux环境中安装Rstudio-Server,它允许用户通过一个Web浏览器的标准Rstudio界面来对RStudio进行多人协同操作。
RStudio可以从其官网https://www.rstudio.com/免费下载安装。一般情况下,下载安装桌面版即可。安装完启动RStudio的基本界面如图2-2所示。

左上方的窗口是文本编辑器,具有强大的功能,可以在文本编辑器写好脚本,单击Run按钮(或者利用Ctrl+R快捷键)批量运行代码;右上方的窗口包括当前环境下的信息、历史命令;左下方的窗口是标准的R控制台;右下方的窗口包括文件路径、绘图窗口、已经在本地安装的包信息、帮助文档以及交互绘图时的图形浏览界面。
Rattle是一个用于数据挖掘的R的图形交互界面(GUI),可用于快捷处理常见的数据挖掘问题。从数据的整理到模型的评价,Rattle给出了完整的解决方案。Rattle和R平台良好的交互性,又为用户使用R语言解决复杂问题开启了方便之门。Rattle易学易用,不要求很多的R语言基础,如今已被广泛应用于数据挖掘实践和教学之中。
Rattle初始界面如图2-3所示。

> library(rattle)
Rattle: A free graphical interface for data mining with R.
XXXX 4.1.0 Copyright (c) 2006-2015 Togaware Pty Ltd.
键入'rattle()'去轻摇、晃动、翻滚你的数据。
> rattle()

Rattle的标签栏已经集成数据导入、数据探索、数据检验、数据转化、数据建模及模型评估功能,可以通过鼠标单击的方式完成一整套的数据挖掘工作,并且可以利用Log日志查看每个操作的R脚本实现,借此来学习R语言的代码规范及编写。

2.1.4 R快速入门

R是一种区分大小写的解释型语言,程序内置的函数可以满足基本的数据分析需求,并有丰富的帮助文档帮助新手快速上手。此外,也有很多用户贡献了高质量的包,极大地扩展了R的功能,例如,用来进行数据处理的resharp2包、用来画图的ggplot2包和R与Web整合部署的shiny包。

1.新手上路

可以在命令提示符(>)后每次输入一条命令,或者一次性执行脚本文件里的一组命令。R语言是解释型语言,输入命令后可以实时响应,就好像计算器一样。

> 1+1
[1] 2

如果R监测到输入的命令行未结束,就会给出一个提示符“+”,提示要在下一行继续输入未完的命令,直到从语法角度来讲命令已经输入完整为止,不然R会有“unexpected end of input”的错误提示。

> 1+
+
错误: unexpected end of input
> 1+
+ 1
[1] 2

R语言的标准赋值符号是<-,也可以用=。例如,将序列1:10赋予对象a,可以执行如下操作。

> a = 1:10

此时,如果想查看对象a,直接输入小写a即可,但由于R是一种区分大小写的解释型语言,此时如果输入大写A,则会报错:

> a
[1]  1  2  3  4  5  6  7  8  9 10
> A

错误: 找不到对象'A'
不仅仅针对数据对象,对于其他对象,R也是区分大小写的。例如,R自带的一个求相关系数的cor函数,如果我们错写为Cor函数,则会出现“没有"Cor"这个函数”的错误提示。

> cor(iris[,1:4])
               Sepal.Length Sepal.Width Petal.Length Petal.Width
Sepal.Length    1.0000000  -0.1175698    0.8717538   0.8179411
Sepal.Width    -0.1175698   1.0000000   -0.4284401  -0.3661259
Petal.Length    0.8717538  -0.4284401    1.0000000   0.9628654
Petal.Width     0.8179411  -0.3661259    0.9628654   1.0000000
> Cor(iris[,1:4])

错误: 没有"Cor"这个函数

2.获得帮助

R提供了大量的帮助文档,学会如何使用这些帮助文档可以让你快速上手。如果想知道某个函数或者数据集的信息,可以输入一个问号?,后面加上函数名。如果想查找某个函数,可以输入两个问号??,后面加上与此函数相关的关键词。函数help及help.search分别等同于?及??。例如:

?median # 等价于help("median"),查看中位数函数的帮助文档
??median # 等价于help.serach("median") 搜索包含median的帮助信息

如果使用的是RStudio,也可以在Help中右上角的搜索框中输入median,查看该函数的帮助文档,如图2-4所示。

默认情况下,help只能查找已经加载到内存中扩展包的函数和数据,如果想查找那些未加载到内存扩展包中的函数和数据,需要指定help函数的package参数中的具体包名或者将try.all.package参数设置为TRUE。例如,想查找shiny包中的runExample函数:

> help("runExample")
No documentation for 'runExample' in specified packages and libraries:
you could try '??runExample'
> help("runExample",package = "shiny")
> help("runExample",try.all.packages = TRUE)

appropos函数能找出所有名字中含有“关键字”的函数,只在载入的包中搜索。例如:

> apropos("plot")
 [1] ".__C__recordedplot"  "assocplot"           "barplot"
 [4] "barplot.default"     "biplot"              "boxplot"
 [7] "boxplot.default"     "boxplot.matrix"      "boxplot.stats"
[10] "cdplot"              "coplot"              "fourfoldplot"
[13] "interaction.plot"    "lag.plot"            "matplot"
[16] "monthplot"           "mosaicplot"          "plot"
[19] "plot.default"        "plot.design"         "plot.ecdf"
[22] "plot.function"       "plot.new"            "plot.spec.coherency"
[25] "plot.spec.phase"     "plot.stepfun"        "plot.ts"
[28] "plot.window"         "plot.xy"             "preplot"
[31] "qqplot"              "recordPlot"          "replayPlot"
[34] "savePlot"            "screeplot"           "spineplot"
[37] "sunflowerplot"       "termplot"            "ts.plot"

大多数函数都已经有相应的例子帮助我们了解该函数的工作原理。可以通过example函数来查看它们。例如:

> example("median")
median> median(1:4)                # = 2.5 [even number]
[1] 2.5
median> median(c(1:3, 100, 1000))  # = 3 [odd, robust]
[1] 3

可以通过data函数查看datasets包中的数据集,如果要查看本地安装包的所有数据集,可以用命令data(package = .packages(all.available = TRUE))查看。

> data()
> data(package = .packages(all.available = TRUE))
3.工作空间

工作空间(workspace)就是当前R的工作环境,它储存所有用户定义的对象(向量、矩阵、函数、数据框、列表、模型、图形等)。例如,通过以下代码创建几个对象。

> # 创建数据对象a,b
> a <- 1:10
> b <- 10:1
> # 创建模型对象fit
> fit <- lm(Sepal.Length~Sepal.Width,data=iris)
> # 创建图形对象q、p
> library(ggplot2)
> q <- qplot(mpg, wt, data = mtcars)
> library(rCharts)
> p <- rPlot(Sepal.Length ~ Sepal.Width | Species, data = iris,
+              type = 'point', color = 'Species')

对象创建完以后,可以通过ls函数查看当前工作空间中的对象。结果如下。

> ls()
[1] "a"    "b"    "fit"  "iris" "p"    "q"

如果使用的是RStudio,可以直接在右上角查看当前工作空间的对象,如图2-5所示。

因为对象是储存在内存中的,所以可以删除不需要的对象及时释放内存,提高效率。通过rm()函数移除一个或多个对象,比如想删除对象fit,执行以下命令。

> rm(list="fit")
> ls()
[1] "a" "b" "p" "q"

如果需要删除剩下的全部对象,可以利用list=ls()实现。

> rm(list=ls())
> ls()
character(0)

当前的工作目录(working directory)是R用来读取文件和保存结果的默认目录,可以使用函数getwd()来查看当前的工作目录。

> getwd()
[1] "C:/Users/Think/Documents"

如果想改变当前的工作目录,可以使用setwd()函数或通过“文件”菜单下的“改变工作目录”命令实现。

4.包

包是R函数、数据、预编译代码以一种定义完善的格式组成的集合。R语言的使用,很大程度上是借助各种各样的R包的辅助,从某种程度上讲,R包就是针对R的插件,不同的插件满足不同的需求,截至2016年5月18日,CRAN已经收录了各类包8417个。计算机上存储包的目录称为库(library),该库位于R软件的安装目录/library目录下。可以通过函数.libPaths()查看库所在的位置,通过函数library()可以显示库中已安装的包。
第一次安装一个包,使用命令install.packages("package_name","dir")即可。dir为包安装的路径。默认情况下安装在..\library 文件夹中。
例如,要安装一个可以快速读取大数据集的扩展包data.table,只需要执行install.packages( "data.table")即可完成安装。

> install.packages("data.table")
试开URL’
https://mirrors.tuna.tsinghua.edu.cn/CRAN/bin/windows/contrib/3.2/data.table_1.9.6.zip'
Content type 'application/zip' length 1883523 bytes (1.8 MB)
downloaded 1.8 MB
程序包'data.table'打开成功,MD5和检查也通过
下载的二进制程序包在
       C:\Users\Think\AppData\Local\Temp\Rtmpoltpbz\downloaded_packages里

也可以选择R的菜单:程序包→安装程序包,在弹出的对话框中,选择要安装的包,然后确定。如果使用的是RStudio,可以选择菜单Tools→Install Packages,调出窗口,包括在线安装和本地安装两种方式。这里我们选择在线安装,只需要在Packages中输入包名后单击Install按钮进行安装即可,如图2-6所示。

包安装后,如果要使用包的功能。必须先把包加载到内存中(默认情况下,R启动后会自动加载基本包),加载包命令:library("包名")或者require("包名")。也可以通过RStudio右下窗口中的Packages加载包。默认情况下,扩展包是未加载到内存中的,如图2-7所示。

直接选中data.table,即可完成包的加载,如图2-8所示。

通过find.package()或者path.package()查看当前环境加载了哪些包。

>find.package() # or path.package()
[1] "C:/Program Files/R/R-3.2.2/library/stringi"
[2] "C:/Program Files/R/R-3.2.2/library/tidyr"
[3] "C:/Program Files/R/R-3.2.2/library/stats"
[4] "C:/Program Files/R/R-3.2.2/library/graphics"
[5] "C:/Program Files/R/R-3.2.2/library/grDevices"
[6] "C:/Program Files/R/R-3.2.2/library/utils"
[7] "C:/Program Files/R/R-3.2.2/library/datasets"
[8] "C:/Program Files/R/R-3.2.2/library/methods"
[9] "C:/PROGRA~1/R/R-32~1.2/library/base"

可以通过detach()函数将已加载的包移出内存。例如,要将ada包从内存中移除,执行detach("package:ada")或取消选中RStudio右下角Packages选项卡中的ada包即可,如图2-9所示。

通过函数remove.packages()将包从本机删除。例如,要从计算机中删除data.table包,需执行以下命令或者单击RStudio右下角Packages选项卡中的data.table包版本号右边的叉,如图2-10所示。

> remove.packages("data.table")
Removing package from 'C:/Program Files/R/R-3.2.2/library'
(as ‘lib’ is unspecified)

时间: 2024-12-31 13:46:23

《R语言游戏数据分析与挖掘》一2.1 开发环境准备和快速入门的相关文章

《R语言游戏数据分析与挖掘》一导读

前 言 为什么要写这本书 随着大数据的概念越来越流行,越来越多的企业开始重视数据,期待从数据中寻找有价值的结论,以指导公司管理层决策,最终创造更大的价值.但是在游戏行业,数据分析的发展相对缓慢,很多游戏公司是在发现人口红利消失后才逐渐重视数据,希望利用数据驱动产品.而在各种数据分析技术中,R语言作为一个可进行交互式数据分析和探索的强大平台,拥有举足轻重的作用.R语言的免费开源使得很多公司用它来处理数据.展示数据.分析数据.完成模型. 使用R语言可以进行游戏数据分析系统的搭建,可以对累积的海量游戏

《R语言游戏数据分析与挖掘》一2.2 数据对象

2.2 数据对象 R拥有许多用于存储数据的对象类型,包括向量.矩阵.数组.数据框和列表.它们在存储数据的类型.创建方式.结构复杂度,以及用于定位和访问其中个别元素的标记等方面均有所不同.多样化的数据对象赋予了R灵活处理数据的能力. R中有许多数据类型用来存储各种各样的数据,包括数值型(numeric).逻辑型(logical).日期型(date).字符型(character).复数型(complex).原味型(二进制形式保存数据raw).此外,也可能是缺省值(NA)和空值(NULL).其中最经常

《R语言游戏数据分析与挖掘》一1.2 游戏数据分析的流程

1.2 游戏数据分析的流程 游戏数据分析.数据挖掘的价值一定要落实到具体的业务应用中才可以得到检验和实现,所以需要流程和制度来有效保障最终的业务实践效果.这些流程一方面可以促使各相关方在数据分析业务实践的不同阶段落实各自的角色.分工和价值,维护整个业务流的畅通和效率:另一方面可以有效达成数据分析项目中各环节的阶段性目标. 游戏数据分析整体流程可以参考跨行业的数据挖掘标准流程CRISP-DM方法论,它是一种业界认可的用于指导数据挖掘工作的方法.按照CRISP-DM方法论,一个游戏数据分析的完整流程

《R语言游戏数据分析与挖掘》一1.1 为什么要对游戏进行分析

1.1 为什么要对游戏进行分析 伴随着游戏互联网的快速发展和智能终端的普及,移动游戏进入了全民时代.越来越多的玩家利用碎片化时间进行游戏,使得游戏数据呈现井喷式增长,同时也对数据存储技术.计算能力.数据分析手段提出了更高的要求.海量数据的存储是必须面对的第一个挑战,随着分布式技术的逐渐成熟,越来越多的互联网企业采用分布式的服务器集群+分布式存储的海量存储器进行数据的存储和计算,从而解决数据存储和计算能力不足的问题.如何在海量的.复杂高维的游戏数据中发掘出有价值的知识,将是很多公司下一步亟待解决的

《R语言游戏数据分析与挖掘》一3.1 常用图形参数

3.1 常用图形参数 R是一个功能强大的图形构建平台,可以逐条输入语句构建图形元素(颜色.点.线.文本等),逐渐完善图形,直至得到想要的结果. 更改图形参数有两种方式,一种是直接在绘图函数中设置参数,这种方式只影响当前的绘图函数:另一种是通过par()函数设置,这种方式会影响当前绘图设备上的所有图形. 3.1.1 颜色元素 R语言可以设置绘图参数col,改变图像.坐标轴.文字.点.线等的颜色.例如,对数据集women绘制红色散点图,只需将col参数设置为"red",如图3-1所示. &

《R语言游戏数据分析与挖掘》一第2章 必备R语言基础

第2章 必备R语言基础 本章将介绍R语言的基础知识,包括三大部分的内容:第一部分是R语言的简介.R及常用编辑器的安装及使用:第二部分是R语言的数据对象的创建数据:第三部分是数据的导入.

《R语言游戏数据分析与挖掘》一1.4 小结

1.4 小结 本章介绍了游戏数据分析的目的和打造数据化运营团队的重要性.一位出色的游戏数据分析师不仅仅要具备统计技能.数据库知识.数据挖掘技能,还需要具有很好的业务理解能力和快速学习能力,能通过自身的专业知识满足不同业务的数据需求,并推动模型落地.

《R语言游戏数据分析与挖掘》一2.4 小结

2.4 小结 本章首先介绍了R.RStudio和Rattle工具的安装和界面,以及R语言的一些基本知识,让读者对R语言有了大概的认识.然后介绍了几种常用数据对象的创建及相关操作.最后介绍了将外部数据源导入R的常用方法,包括导入文本文件.导入Excel文件.利用R对数据库进行管理和简单的R爬虫技术.

《R语言游戏数据分析与挖掘》一第3章 R语言绘图重要技术

第3章 R语言绘图重要技术R语言除了拥有良好的数据处理和分析能力外,对于展现数据也有极其灵活和强大的应用.由于用图形表达分析结果往往更直观和简单,所以对于优秀的分析报告而言,将数据结果以适当的图形方式展示后,其沟通效果和说服力会更佳.本章将介绍如何向一幅简单的图形中添加元素,以得到更有用和更吸引人的图形,以及绘制各种类型图形的函数.