用KNIME建立客户流失模型

PMML是一种可以呈现预测分析模型的事实标准语言,用于呈现数据挖掘模型。预测分析模型采用定型过程中获取的知识来预测新数据中是否有已知模式。PMML允许您在不同的应用程序之间轻松共享预测分析模型。因此,您可以在一个系统中定型一个模型,PMML中对其进行表达,然后将其移动到另一个系统中,并在该系统中使用上述模型预测机器失效的可能性等。

今天我们运用决策树算法训练一个客户流失模型,进行“客户流失”的预测分析。

结点概览

读取数据。这里读取两个数据文件,一个是通话数据和合约数据。接着讲两个数据以“电话号(PHONE NUMBER)”为关键字连接。

文件中有两列数据,分别是“地区编号(AREA CODE)”和“流失情况(CHURN)”,我们不想将这两列作为数值型数据处理,这里我们将其更改为字符型数据。

将流失与否(这里为布尔值)用颜色标注出来,设置数据为0时标蓝色,数据为1时标红色。

接着把数据分成80%的训练集和20%的测试集。

至此完成数据预处理工作。

使用决策树,依照不同的指标,对流失和存活客户数进行分类。

首先使用日租费day charge将所有数据分为两组,对于day charge =< 44.96的值再依据拨打客服电话数,划分成两组。以此类推,直至叶节点拥有最小不纯度值。

然后将决策树所得模型记录为PMML语句,方便下次调用。

删除属于多数类的随机行(如在这里流失客户为少数项,存活客户为多数),则我们随机删除一些多数项,使流失客户和存活客户数据量相同。接着输入测试集和已得决策树模型,应用决策树算法对之前分出的80%测试数据进行预测。

通过ROC曲线可以看出,这个模型的预测准确度高达89.89%,是一个比较理想的模型。

本文作者:邵海涵 周亚楠 沈浩

来源:51CTO

时间: 2024-11-14 11:57:26

用KNIME建立客户流失模型的相关文章

KNIMI数据挖掘建模与分析系列_004_利用KNIMI做客户流失预测

利用KNIMI做客户流失预测 老帅 20150801 http://blog.csdn.net/shuaihj 一.测试数据 中国移动客服数据 需要测试数据,请留下邮箱 二.统计已流失客户 1.读取移动客服数据(客户流失.xlsx) 2.统计已流失客户 参数设置 统计结果 3.数据流 三.贝叶斯预测客户流失 1.字符类型转换 将"流失"列转换为字符串类型 2.划分训练集和测试集 取30%作为训练数据,剩余70%作为测试数据,我们将预测这70%客户的流失率: 设置"流失&quo

为网站建立客户信任的8条实用设计技巧

  无论是浏览网页还是购物,人们在使用互联网时往往会很警觉.信用卡欺诈和身份盗窃案例层出不穷,这让网站更难获得用户的信任. 但这并不意味着你无法获得用户的信任.你可以使用一些视觉符号来建立用户信任,提高用户转化率. 1.服务标识 如果你网站提供的保险单包括退款,或者质保服务,你可以使用相应的标志和标记来提醒用户.举个例子,如果你提供一年的保修期,你可以在页面里给它一个金色或者银色的标记. 通常你可以把它放置在"立即购买"按钮的旁边,这样可以增加网站的可信度.对于这种标志来说,金色往往是

《Power Designer系统分析与建模实战》——3.2 建立业务处理模型

3.2 建立业务处理模型 创建业务处理模型主要有如下两种形式: 1)直接新建BPM. 2)从已有的BPM生成新的BPM. 本节主要讲解在Power Designer中直接新建BPM的方法. 3.2.1 创建BPM 选择"File"→"New"菜单项,从弹出的新建模型窗口中选择"Model types"→ "Business Process Model"→"Business Process Diagram",

使用AMOS图形建立和检测模型(3)

使用AMOS图形建立和检测模型 EM--多重回归关系的说明 本质上,SEM 是带一个因变量(Y)的多重线性回归模型在多变量上的扩展: y = i + Xb + e 这里 y 是因变量上包含观测得分的向量, i 是表示y-截距的单位向量, X 是连续分布或分类(编码)自变量的矩阵, B 是回归权重向量, e 表示残差向量或误差或不能由模型解释的剩余得分. SEM 由一系列多重回归方程组成 – 所有方程被同时拟合.事实上,使用SEM软件能够产生回归分析. 典 型的多重回归分析产生几个统计量,包括整体

matlab 数据处理-Matlab DACE工具箱建立的kriging模型如何具体函数化

问题描述 Matlab DACE工具箱建立的kriging模型如何具体函数化 要利用这个kriging模型进行参数优化,但是用DACE工具箱做出的kriging模型是个整体形式,返回值有kriging模型的参数theta,beta,sigma^2等参数.能把它转换成一般普通函数形式吗? 解决方案 可以的,看那个dace和很多文献的介绍里,最后Y是有一个表达式的,但是比较复杂.

【评论】聚美:“水与假”带来的客户流失

聚美优品,在电商圈算是个异类.它包装的故事是化妆品领域的唯品会.事实上,聚美优品的品类开始拓展,而唯品会吞下乐蜂网.接下来,聚美优品与唯品会,会有 激烈竞争. 当年,聚美优品与乐蜂两家公司,相互指责 对方卖假货,卖水货的口水战打得厉害,尽管两家公司居然都有同样的投资人. http://www.aliyun.com/zixun/aggregation/7974.html">有趣的是,聚美优品与唯品会,也有同样的投资人.更有趣的是,Google搜索两家公司,排在第一位关键词联想都是"

为什么无法建立过程性能模型?

在CMMI四五级的软件公司中,建立过程性能模型是一个重点也是一个难点工作,很多公司无法建立过程性能模型,为什么呢? 1)数据不准 比如: ? 对于评审的会议,评审的参与人有的是来学习的,在统计人数.工作量时就不应该统计在内. ? 有的数据当时没有采集,而是靠时候回忆采集上来的. ? 有的代码行数不是通过工具统计上来的,而是靠人估计估计出来的. 2)过程不稳定 过程不稳定的原因可以细分为: i)过程太大 比如:对于整个项目的工期偏差率建立回归分析模型,由于影响因子太多,每个因子都有影响,但是影响都

分析称本地搜索引擎营销面临挑战 客户流失严重

中介交易 SEO诊断 淘宝客 云主机 技术大厅 据国外媒体报道,美国搜索引擎技术网站Search Engine Land编辑格雷格·斯特林(Greg Sterling)近日撰文称,Google今年分销商会议的冷清反映了搜索引擎营销面临的挑战,而市场分析机构Borrell的报告则量化了本地搜索引擎市场客户流失的现实. 格雷格·斯特林 以下为其原文: Google最近刚刚结束了它的年度本地分销商座谈会,去年该座谈会非常火爆,尽管我今年未能参加,但据一出席者称,今年参会的分销商数量要比一年前少的多.本

优酷土豆合并后短期内有部分原有客户流失

摘要: 土豆网自2011年第三季度上市以来的营收状况 优酷土豆(NYSE:YOKU)今日迎来合并以后的首份财报.财报显示,优酷土豆第三季度总净营收为人民币5.022亿元(约合7990万美元),其中来自于优酷 土豆网自2011年第三季度上市以来的营收状况 优酷土豆(NYSE:YOKU)今日迎来合并以后的首份财报.财报显示,优酷土豆第三季度总净营收为人民币5.022亿元(约合7990万美元),其中来自于优酷的净营收为人民币4.835亿元(约合7690万美元),总营收同比增84%,总净亏损1460万美