《R语言游戏数据分析与挖掘》一1.3 数据分析师的能力要求

1.3 数据分析师的能力要求
因为在数据化运营中,数据分析师要深入业务背景,倾听和发现业务需求,走到业务第一线,与业务团队并肩作战,所以要求数据分析师具备很强的组织协调能力,具有项目大局观,懂得在不同阶段调用不同的资源。从这点来看,业务理解力和沟通能力的重要性甚至要超过技术层面的能力(数据处理能力、数据统计分析能力、数据挖掘能力、数据应用能力)。图1-2是游戏数据分析师需要具备的关键能力。

首先数据分析师要具备组织能力。这体现在项目前期调研、方案制定、项目开发和项目落地的职责和能力要求。

  • 调研:深入业务背景,发现、倾听业务需求。
  • 方案:通过前期调研,有效判别分析需求价值,根据需求能有效提供分析解决方案。
  • 开发:针对制定的解决方案,能通过技术手段进行项目开发。
  • 落地:将开发成果结合业务场景进行落地,并持续跟踪落地应用效果,修正或优化方案和模型。

数据处理能力、数据挖掘能力和数据应用能力这三大块能力需要数据分析师通过时间、项目经验去磨砺,不断成长,懂得何时运用哪种数据挖掘技术解决相应的问题。

1.3.1 数据处理能力

刚刚收集上来的raw data(原始数据)一般存在脏数据,不能达到直接建模的要求。我们不能直接利用raw data进行数据分析建模,所谓“垃圾进垃圾出”,这样得到的分析结果也不一定是可靠的。对于raw data,我们需要评估数据质量,清洗脏数据,通常包括缺失值和异常值的处理,使之达到数据分析的需求。假如现在有一份30万的用户调研数据,由于某些玩家不愿意填写自己的性别、收入等,导致这些变量存在数据缺失的情况。现在利用数据分析技术对缺失值模式进行可视化探索,如图1-3所示。
由图1-3可知,有2万位玩家没有填写性别信息,其中有609位玩家同时缺失性别、年龄信息,31位玩家同时缺失性别、年龄和收入的信息。掌握了数据缺失模式后,就知道应该运用何种技术处理这些缺失值。

针对异常值数据,我们同样希望能通过科学的方式甄别异常值并处理。例如,可以利用箱线图发现异常值,并在图上打印出异常值的样本号和数值,直观地对异常值进行可视化展示。比如现在有某个月日新增用户在第30日留存率的数据,通过普通曲线图很难发现是否有某些天的新增在第30日留存存在异常情况。此时可以借助箱线图的方式甄别异常值,如图1-4所示。

由图1-4可知,这个月有三天的新增用户在第30日留存率低于正常水平,分别是5日、6日和9日。
进行数据清洗后,有时候还需要对数据进行数据整合转换,使之符合建模前的数据需求,常用的一种方式是添加衍生变量。所谓衍生变量,其实就是指数据分析师在分析(建模)过程中人为增添的一些新变量,这些新变量产生之后,可以明显提升模型的效果,或者可以有效提炼出有价值的分析结论。

1.3.2 数据挖掘能力

数据分析师在建模的过程中,需要根据业务需求和数据特点选择合适的算法,利用专业的数据挖掘工具进行建模,并评估模型效果。比如在面对用户分析的需求时,可分别分析玩家点击行为的路径和玩家购买的道具,根据不同的方向和目标选择不同的算法和工具。
如图1-5所示,在研究玩家的点击行为时,如果是单路径情况,可以使用漏斗图查看每一步的转化情况;如果是多路径的点击情况,可以使用sunburst事件路径图快速定位用户的主要点击路径,也可以利用社会网络图对玩家间的点击事件关系进行可视化。

在研究玩家的购买行为时,可以利用关联规则发现购买物品之间的关系,如图1-6所示。

1.3.3 数据应用能力

由于业务团队的数据分析意识和能力不如专业的数据分析师,他们大多不懂解读模型结果。此时需要数据分析师将模型得到的知识用朴素的业务语言表达出来,从而利用分析结果指导运营和营销活动。以图1-6为例,业务团队一般看不懂这个图传递的信息,需要帮他们解读。比如圆圈越大表示两者的关联关系越强,很多玩家都购买过超级大礼包和新手礼包这两个道具,在做运营活动时,可以将这两个礼包进行捆绑销售,提高另外一个道具的销量。

时间: 2024-10-24 15:28:57

《R语言游戏数据分析与挖掘》一1.3 数据分析师的能力要求的相关文章

《R语言游戏数据分析与挖掘》一导读

前 言 为什么要写这本书 随着大数据的概念越来越流行,越来越多的企业开始重视数据,期待从数据中寻找有价值的结论,以指导公司管理层决策,最终创造更大的价值.但是在游戏行业,数据分析的发展相对缓慢,很多游戏公司是在发现人口红利消失后才逐渐重视数据,希望利用数据驱动产品.而在各种数据分析技术中,R语言作为一个可进行交互式数据分析和探索的强大平台,拥有举足轻重的作用.R语言的免费开源使得很多公司用它来处理数据.展示数据.分析数据.完成模型. 使用R语言可以进行游戏数据分析系统的搭建,可以对累积的海量游戏

《R语言游戏数据分析与挖掘》一2.2 数据对象

2.2 数据对象 R拥有许多用于存储数据的对象类型,包括向量.矩阵.数组.数据框和列表.它们在存储数据的类型.创建方式.结构复杂度,以及用于定位和访问其中个别元素的标记等方面均有所不同.多样化的数据对象赋予了R灵活处理数据的能力. R中有许多数据类型用来存储各种各样的数据,包括数值型(numeric).逻辑型(logical).日期型(date).字符型(character).复数型(complex).原味型(二进制形式保存数据raw).此外,也可能是缺省值(NA)和空值(NULL).其中最经常

《R语言游戏数据分析与挖掘》一2.1 开发环境准备和快速入门

2.1 开发环境准备和快速入门 2.1.1 R语言简介 R语言的前身是S语言,S语言是由AT &T Bell实验室的Rick Becker.John Chambers和Allan Wilks开发的一种用来进行数据探索.统计分析.作图的解释型语言.最初S语言的实现版本主要是S-PLUS.S-PLUS是一个商业软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善.而R语言最初由来自新西兰大学的Ross Ihaka和Robert Gentleman开发(由于他们的名字都以R开头,所以该软

《R语言游戏数据分析与挖掘》一1.2 游戏数据分析的流程

1.2 游戏数据分析的流程 游戏数据分析.数据挖掘的价值一定要落实到具体的业务应用中才可以得到检验和实现,所以需要流程和制度来有效保障最终的业务实践效果.这些流程一方面可以促使各相关方在数据分析业务实践的不同阶段落实各自的角色.分工和价值,维护整个业务流的畅通和效率:另一方面可以有效达成数据分析项目中各环节的阶段性目标. 游戏数据分析整体流程可以参考跨行业的数据挖掘标准流程CRISP-DM方法论,它是一种业界认可的用于指导数据挖掘工作的方法.按照CRISP-DM方法论,一个游戏数据分析的完整流程

《R语言游戏数据分析与挖掘》一1.1 为什么要对游戏进行分析

1.1 为什么要对游戏进行分析 伴随着游戏互联网的快速发展和智能终端的普及,移动游戏进入了全民时代.越来越多的玩家利用碎片化时间进行游戏,使得游戏数据呈现井喷式增长,同时也对数据存储技术.计算能力.数据分析手段提出了更高的要求.海量数据的存储是必须面对的第一个挑战,随着分布式技术的逐渐成熟,越来越多的互联网企业采用分布式的服务器集群+分布式存储的海量存储器进行数据的存储和计算,从而解决数据存储和计算能力不足的问题.如何在海量的.复杂高维的游戏数据中发掘出有价值的知识,将是很多公司下一步亟待解决的

《R语言游戏数据分析与挖掘》一3.1 常用图形参数

3.1 常用图形参数 R是一个功能强大的图形构建平台,可以逐条输入语句构建图形元素(颜色.点.线.文本等),逐渐完善图形,直至得到想要的结果. 更改图形参数有两种方式,一种是直接在绘图函数中设置参数,这种方式只影响当前的绘图函数:另一种是通过par()函数设置,这种方式会影响当前绘图设备上的所有图形. 3.1.1 颜色元素 R语言可以设置绘图参数col,改变图像.坐标轴.文字.点.线等的颜色.例如,对数据集women绘制红色散点图,只需将col参数设置为"red",如图3-1所示. &

《R语言游戏数据分析与挖掘》一第2章 必备R语言基础

第2章 必备R语言基础 本章将介绍R语言的基础知识,包括三大部分的内容:第一部分是R语言的简介.R及常用编辑器的安装及使用:第二部分是R语言的数据对象的创建数据:第三部分是数据的导入.

《R语言游戏数据分析与挖掘》一1.4 小结

1.4 小结 本章介绍了游戏数据分析的目的和打造数据化运营团队的重要性.一位出色的游戏数据分析师不仅仅要具备统计技能.数据库知识.数据挖掘技能,还需要具有很好的业务理解能力和快速学习能力,能通过自身的专业知识满足不同业务的数据需求,并推动模型落地.

《R语言游戏数据分析与挖掘》一2.4 小结

2.4 小结 本章首先介绍了R.RStudio和Rattle工具的安装和界面,以及R语言的一些基本知识,让读者对R语言有了大概的认识.然后介绍了几种常用数据对象的创建及相关操作.最后介绍了将外部数据源导入R的常用方法,包括导入文本文件.导入Excel文件.利用R对数据库进行管理和简单的R爬虫技术.