在数据挖掘项目中,数据理解常常不被重视。但其实数据理解在整个数据挖掘项目中扮演着非常重要的角色,可以说是整个项目的基石。在计算机领域有一句话,“Garbage in,garbage out.” 意思就是说,如果你的输入数据没有经过科学的预处理,你所得到的结果必将是错误的。通过数据理解,我们可以理解数据的特性和不足,进而对数据进行预处理,使得将来得到的模型更加稳定和精确。其次通过理解数据项之间的关系,我们可以为建模时输入数据项和模型的选择提供重要的信息。
首先,我们需要了解 CRISP-DM 模型,从而了解数据理解在数据挖掘工作的位置和作用。接着我们利用一个例子,分三个章节来介绍如何利用 Modeler 来理解和处理原始数据中的缺失值,异常值和各个数据项之间的内在关系。
CRISP-DM 模型
数据挖掘是一项复杂的工程,为了让整个项目便于控制和管理,我们必须遵从一定的标准流程。而 CRISP-DM 模型就是数据挖掘业界比较流行的一种模型。
图 1. CRISP-DM 模型图
CRISP-DM,即跨">行业数据挖掘标准流程,这是一种业界认可的用于指导数据挖掘工作的方法。作为一种方法,它包含工程中各个典型阶段的说明、每个阶段所包含的任务以及这些任务之间的关系的说明;作为一种流程模型,CRISP-DM 概述了数据挖掘的生命周期。图 1 展示了 CRISP-DM 中定义的数据挖掘生命周期中的六个阶段。
商业理解:了解进行数据挖掘的业务原因和数据挖掘的目标 数据理解:
深入了解可用于挖掘的数据 数据准备:对待挖掘数据进行合并,汇总,排序,样本选取等操作 建立模型:根据
前期准备的数据选取
合适的模型 模型评估:使用在商业理解阶段设立的业务成功标准对模型进行评估 结果部署:使用挖掘后的结果提升业务的过程
下面,我们以某超市的市场推广活动为例,从商业理解开始,一起来学习如何利用 Modeler 的强大功能来进行数据理解。
商业理解:
现状:
某超市新增加了体育服饰用品营业部。开业一段时间,由于体育服饰用品地处二楼,很多顾客还不知道,营业额没有达到预期。
商业目标:
经理决定进行一次促销活动,具体活动是向会员中的部分用户邮寄打折优惠卡。考虑到优惠卡制作费用,邮寄费用,经理希望能够向那些最有购买潜力的客户邮寄优惠卡。使这些潜在用户了解本超市的体育品牌和刺激他们进行消费。
活动计划:
首先调取自体育用品部营业来的所有销售记录,得到购买体育用品的会员记录,建立模型,对本超市所有会员进行预测,对那些最有可能购买体育用品且尚未购买的客户邮寄优惠卡。以刺激这些潜在客户的消费。
验证条件:
产生潜在客户名单信息后,随机抽取 100 名进行电话调查,表示愿意接受优惠券并且表示会来消费的顾客比例高于 70%.
数据理解
经理将这个任务交给小王来负责,小王首先对超市内现有的数据进行分析:
会员基本信息:会员申请会员卡时登记的信息,其中包含了会员年龄,职业,学历,电话,工作,收入,住址等信息。 消费信息:会员消费的明细记录。
了解了现有数据后,小王发现有以下问题:
会员基本信息是会员提供的,里边有很多值是缺失的,有的看起来是错误的。 而消费信息由于是每次消费后电脑生成,信息是完整的,
但是信息却很庞杂,不利于分析。 可用的数据项非常多,到底用哪些数据项来进行数据预测呢?