1.3 数据分析师的能力要求
因为在数据化运营中,数据分析师要深入业务背景,倾听和发现业务需求,走到业务第一线,与业务团队并肩作战,所以要求数据分析师具备很强的组织协调能力,具有项目大局观,懂得在不同阶段调用不同的资源。从这点来看,业务理解力和沟通能力的重要性甚至要超过技术层面的能力(数据处理能力、数据统计分析能力、数据挖掘能力、数据应用能力)。图1-2是游戏数据分析师需要具备的关键能力。
首先数据分析师要具备组织能力。这体现在项目前期调研、方案制定、项目开发和项目落地的职责和能力要求。
- 调研:深入业务背景,发现、倾听业务需求。
- 方案:通过前期调研,有效判别分析需求价值,根据需求能有效提供分析解决方案。
- 开发:针对制定的解决方案,能通过技术手段进行项目开发。
- 落地:将开发成果结合业务场景进行落地,并持续跟踪落地应用效果,修正或优化方案和模型。
数据处理能力、数据挖掘能力和数据应用能力这三大块能力需要数据分析师通过时间、项目经验去磨砺,不断成长,懂得何时运用哪种数据挖掘技术解决相应的问题。
1.3.1 数据处理能力
刚刚收集上来的raw data(原始数据)一般存在脏数据,不能达到直接建模的要求。我们不能直接利用raw data进行数据分析建模,所谓“垃圾进垃圾出”,这样得到的分析结果也不一定是可靠的。对于raw data,我们需要评估数据质量,清洗脏数据,通常包括缺失值和异常值的处理,使之达到数据分析的需求。假如现在有一份30万的用户调研数据,由于某些玩家不愿意填写自己的性别、收入等,导致这些变量存在数据缺失的情况。现在利用数据分析技术对缺失值模式进行可视化探索,如图1-3所示。
由图1-3可知,有2万位玩家没有填写性别信息,其中有609位玩家同时缺失性别、年龄信息,31位玩家同时缺失性别、年龄和收入的信息。掌握了数据缺失模式后,就知道应该运用何种技术处理这些缺失值。
针对异常值数据,我们同样希望能通过科学的方式甄别异常值并处理。例如,可以利用箱线图发现异常值,并在图上打印出异常值的样本号和数值,直观地对异常值进行可视化展示。比如现在有某个月日新增用户在第30日留存率的数据,通过普通曲线图很难发现是否有某些天的新增在第30日留存存在异常情况。此时可以借助箱线图的方式甄别异常值,如图1-4所示。
由图1-4可知,这个月有三天的新增用户在第30日留存率低于正常水平,分别是5日、6日和9日。
进行数据清洗后,有时候还需要对数据进行数据整合转换,使之符合建模前的数据需求,常用的一种方式是添加衍生变量。所谓衍生变量,其实就是指数据分析师在分析(建模)过程中人为增添的一些新变量,这些新变量产生之后,可以明显提升模型的效果,或者可以有效提炼出有价值的分析结论。
1.3.2 数据挖掘能力
数据分析师在建模的过程中,需要根据业务需求和数据特点选择合适的算法,利用专业的数据挖掘工具进行建模,并评估模型效果。比如在面对用户分析的需求时,可分别分析玩家点击行为的路径和玩家购买的道具,根据不同的方向和目标选择不同的算法和工具。
如图1-5所示,在研究玩家的点击行为时,如果是单路径情况,可以使用漏斗图查看每一步的转化情况;如果是多路径的点击情况,可以使用sunburst事件路径图快速定位用户的主要点击路径,也可以利用社会网络图对玩家间的点击事件关系进行可视化。
在研究玩家的购买行为时,可以利用关联规则发现购买物品之间的关系,如图1-6所示。
1.3.3 数据应用能力
由于业务团队的数据分析意识和能力不如专业的数据分析师,他们大多不懂解读模型结果。此时需要数据分析师将模型得到的知识用朴素的业务语言表达出来,从而利用分析结果指导运营和营销活动。以图1-6为例,业务团队一般看不懂这个图传递的信息,需要帮他们解读。比如圆圈越大表示两者的关联关系越强,很多玩家都购买过超级大礼包和新手礼包这两个道具,在做运营活动时,可以将这两个礼包进行捆绑销售,提高另外一个道具的销量。