使用IBM SPSS Modeler进行数据挖掘工作中的数据理解工作

在数据挖掘项目中,数据理解常常不被重视。但其实数据理解在整个数据挖掘项目中扮演着非常重要的角色,可以说是整个项目的基石。在计算机领域有一句话,“Garbage in,garbage out.” 意思就是说,如果你的输入数据没有经过科学的预处理,你所得到的结果必将是错误的。通过数据理解,我们可以理解数据的特性和不足,进而对数据进行预处理,使得将来得到的模型更加稳定和精确。其次通过理解数据项之间的关系,我们可以为建模时输入数据项和模型的选择提供重要的信息。

首先,我们需要了解 CRISP-DM 模型,从而了解数据理解在数据挖掘工作的位置和作用。接着我们利用一个例子,分三个章节来介绍如何利用 Modeler 来理解和处理原始数据中的缺失值,异常值和各个数据项之间的内在关系。

CRISP-DM 模型

数据挖掘是一项复杂的工程,为了让整个项目便于控制和管理,我们必须遵从一定的标准流程。而 CRISP-DM 模型就是数据挖掘业界比较流行的一种模型。

图 1. CRISP-DM 模型图

CRISP-DM,即跨">行业数据挖掘标准流程,这是一种业界认可的用于指导数据挖掘工作的方法。作为一种方法,它包含工程中各个典型阶段的说明、每个阶段所包含的任务以及这些任务之间的关系的说明;作为一种流程模型,CRISP-DM 概述了数据挖掘的生命周期。图 1 展示了 CRISP-DM 中定义的数据挖掘生命周期中的六个阶段。

商业理解:了解进行数据挖掘的业务原因和数据挖掘的目标 数据理解:
深入了解可用于挖掘的数据 数据准备:对待挖掘数据进行合并,汇总,排序,样本选取等操作 建立模型:根据
前期准备的数据选取
合适的模型 模型评估:使用在商业理解阶段设立的业务成功标准对模型进行评估 结果部署:使用挖掘后的结果提升业务的过程

下面,我们以某超市的市场推广活动为例,从商业理解开始,一起来学习如何利用 Modeler 的强大功能来进行数据理解。

商业理解:

现状:

某超市新增加了体育服饰用品营业部。开业一段时间,由于体育服饰用品地处二楼,很多顾客还不知道,营业额没有达到预期。

商业目标:

经理决定进行一次促销活动,具体活动是向会员中的部分用户邮寄打折优惠卡。考虑到优惠卡制作费用,邮寄费用,经理希望能够向那些最有购买潜力的客户邮寄优惠卡。使这些潜在用户了解本超市的体育品牌和刺激他们进行消费。

活动计划:

首先调取自体育用品部营业来的所有销售记录,得到购买体育用品的会员记录,建立模型,对本超市所有会员进行预测,对那些最有可能购买体育用品且尚未购买的客户邮寄优惠卡。以刺激这些潜在客户的消费。

验证条件:

产生潜在客户名单信息后,随机抽取 100 名进行电话调查,表示愿意接受优惠券并且表示会来消费的顾客比例高于 70%.

数据理解

经理将这个任务交给小王来负责,小王首先对超市内现有的数据进行分析:

会员基本信息:会员申请会员卡时登记的信息,其中包含了会员年龄,职业,学历,电话,工作,收入,住址等信息。 消费信息:会员消费的明细记录。

了解了现有数据后,小王发现有以下问题:

会员基本信息是会员提供的,里边有很多值是缺失的,有的看起来是错误的。 而消费信息由于是每次消费后电脑生成,信息是完整的,
但是信息却很庞杂,不利于分析。 可用的数据项非常多,到底用哪些数据项来进行数据预测呢?

时间: 2024-11-05 19:42:23

使用IBM SPSS Modeler进行数据挖掘工作中的数据理解工作的相关文章

IBM SPSS Modeler 在电力负荷预测中的应用

电力负荷预测是电力系统调度.用电.计划.规划等管理部门的重要工作之一.提高负荷预测水平,有利 于计划用电管理,有利于合理安排电网运行方式和机组检修计划,有利于节煤.节油和降低发电成本,有利于 制定合理的电网建设规划,有利于提高电力系统的经济效益和社会效益.因此,负荷预测已成为实现电力系统 管理和现代化的重要内容之一. IBM SPSS Modeler 简介 IBM SPSS Modeler 是一组数据挖掘工具,通过这些工具可以采用计算机技术快速建立预测性模型,并将其 应用于商业活动,从而改进决策

使用IBM SPSS Modeler进行社交网络分析

社交http://www.aliyun.com/zixun/aggregation/13143.html">网络分析(SNA)是 Modeler 15 增加的一个新功能.SNA 映射和度量个人.组和其它实体(定义为节点)之间的关系.典型应用包括客户流失预警,病毒式营销等,也可以与传统数据挖掘模型结合使用以提高后者的性能.本文将介绍 Modeler 中两种 SNA 模块的算法原理 , 并通过实例讲解,使读者了解 SNA 的使用方法. 背景知识:社交网络分析.数据挖掘.IBM SPSS Mod

IBM SPSS Modeler在电力负荷预测行业的解决方案

电力负荷预测是电力系统调度.用电.计划.规划等管理部门的重要工作之一.提高负荷预测水平,有利于计划用电管理,有利于合理安排电网运行方式和机组检修计划,有利于节煤.节油和降低发电成本,有利于制定合理的电网建设规划,有利于提高电力系统的经济效益和社会效益.因此,负荷预测已成为实现电力系统管理和现代化的重要内容之一. IBM SPSS Modeler 简介 IBM SPSS Modeler 是一组数据挖掘工具,通过这些工具可以采用计算机技术快速建立预测性模型,并将其应用于商业活动,从而改进决策过程.

IBM SPSS Modeler 与数据库集成建模及优化(三)

IBM SPSS Modeler 与数据库集成建模及优化 在这个由三部分组成的关于 IBM SPSS Modeler 与数据库集成建模及优化系列的前两部分中,我们谈到了与数据库相关的基本操作及集成建模,本部分将重点关注 SPSS Modeler 集成使用数据库的过程中的性能优化,包括多种功能的介绍和技巧的使用: 数据操作回送 模型回送 数据库插件 - 评分服务适配器 调用数据库函数 重新排列执行顺序 性能提升技巧总结 本文假设读者熟悉在 SPSS Modeler 中如何建立数据库连接及其他一些基

IBM SPSS Modeler与数据库集成建模及优化(二)

了解 IBM SPSS Modeler 与数据库集成和优化 在这个由三部分组成的关于 IBM SPSS Modeler 与数据  库集成建模及优化系列的第一部分中,我们谈到了使用数据库  节点对数据库进行写入及读取数据操作.接下来,我们将介绍使用 SPSS   Modeler 应用程序在数据库中构建.评分和存储模型.通过集成,可将  SPSS Modeler 的分析功能和易用性与数据库的强大性能相结合,同时还  可运用数据库提供商提供的数据库自有算法进行建模.通过 SPSS Modeler  

IBM SPSS Modeler与数据库集成建模及优化(一)

IBM SPSS Modeler 与数据库集成和配置 作为 IBM 分析与预测解决方案的重要组成部分,IBM SPSS Modeler 是一组数据挖掘工具,通过这些工具可以采用商业技术快速建立预测性模型 ,并将其应用于商业活动,从而改进决策过程. 其可对企业级海量数据进行处理与建模,通过强大的数据库集成功能更可以直 接与企业已有的数据库集成进行数据挖掘.不仅避免了企业资金重复投入, 而且可以获取更好的数据挖掘性能. 比如某公司经过多年的积累,有非常庞大的数据且存储于数据库中  ,希望能使用 SP

如何通过IBM SPSS Modeler对数据进行处理和建模

由于目前http://www.aliyun.com/zixun/aggregation/18046.html">企业客户的业务量和数据量都在不断的提高,随着企业的发展,很多企业的数据存储都不局限于同一个数据库上,如果要对这些存储在不同数据库上的数据进行处理和建模,就需要将这些存储在不同数据库之间的数据进行有效的整合,本文将介绍通过 IBM SPSS Modeler 如何对不同数据库之间的数据进行整合,然后进行建模处理. IBM SPSS Modeler 介绍 IBM SPSS Modele

几种典型的第三方产品和IBM SPSS Modeler连接

它能和多种第三方产品连接,更好地实现数据的数据的预测.整合和分析.本文将介绍几种典型的第三方产品和 Modeler 的连接.IBM SPSS Modeler 软件已经可以和其他一些最 新的产品很好的整合在一起,形成完整的解决方案. 例如:SPSS Data Collection.Statistic.Collaboration Deployment Service.Cognos 一起就形成了对调查研究的完整解决方案.它还能够嵌入各种各样的数据源和数据文件,再将他们进行分析,深层次地挖掘.而新增与

在UNIX环境下部署高效的IBM SPSS Modeler Server

本文通过实例介绍了三种配置部署策略,分别满足不同类型的http://www.aliyun.com/zixun/aggregation/12909.html">客户需求,使客户能顺利的应用到实际的业务流程中. Modeler Server 架构和系统特点 IBM SPSS Modeler Server 作为企业级数据挖掘工作平台,与一个或多个 IBM SPSS Modeler 安装程序一起在分布式分析模式下不间断运行.它采用三层分布式基础架构,如图 1 所示,通过网络与 Modeler 和数