《数据挖掘:实用案例分析》——第2章 数据挖掘的应用分类 2.1 分类与回归

第2章 数据挖掘的应用分类

  由于数据挖掘能分析出数据中的有用信息,给企业带来显著的经济效益,这使得数据挖掘技术越来越普及。如在销售数据中发掘顾客的消费习惯,并可从交易记录中找出顾客偏好的产品组合,其他包括找出流失顾客的特征与推出新产品的时机点等都是零售业常见的实例;利用数据挖掘分析顾客群的消费行为与交易纪录,结合基本数据,并依其对品牌价值等级的高低来区隔顾客,进而达到差异化营销的目的;制造业对数据挖掘的需求多运用在品质控管方面,从制造过程中找出影响产品品质最重要的因素,以期提高作业流程的效率。

  近几年,电话公司、信用卡公司、保险公司以及股票交易商对诈欺行为的侦测都很有兴趣,这些行业每年因为诈欺行为而遭受的损失都非常巨大,数据挖掘可以从一些信用不良的客户数据中找出相似特征并预测可能的诈欺交易,达到减少损失的目的。金融业可以利用数据挖掘来分析市场动向,并预测个别公司的营运以及股价走向。数据挖掘的另一个独特的用法是在医疗业,用来预测手术、用药、诊断或是流程控制的效率。

  归纳起来,数据挖掘技术的基本任务主要体现在分类与回归、聚类、关联规则、时序模式、偏差检测五个方面。图21是典型的数据挖掘应用场景。

2.1 分类与回归

  我们经常会碰到这样的问题:

  1)如何将信用卡申请人分为低、中、高风险群?

  2)如何预测哪些顾客在未来半年内会取消该公司服务,哪些电话用户会申请增值服务?

  3)如何预测银行可以安全地贷给贷款人的贷款量?

  4)哪些使用2G通信网络的手机用户有可能转换到3G通信网络?

  5)如何有效预测房地产开发中存在的风险?

  除此之外,市场经理需要进行数据分析,以便帮助他预测具有某些特征的顾客会购买一台新的计算机;医学研究者希望分析乳腺癌数据,预测病人应当接受三种具体治疗方案的哪一种;这些都是分类与回归的例子。

2.1.1 分类与回归建模原理

  分类(Classification):指将数据映射到预先定义好的群组或类。

  因为在分析测试数据之前,类别就已经确定了,所以分类通常被称为有监督的学习。分类算法要求基于数据属性值来定义类别,通常通过已知所属类别的数据的特征来描述类别。

  分类就是构造一个分类函数(分类模型),把具有某些特征的数据项映射到某个给定的类别上。该过程由两步构成。

  其中的训练数据集是带有类标号的,也就是说在分类之前,要划分的类别是已经确定的。通常分类模型是以分类规则、决策树或数学表达式的形式给出,图2-2就是一个三分类问题。

  回归(Regression):用属性的历史数据预测未来趋势。

  回归首先假设一些已知类型的函数(例如线性函数、Logistic函数等)可以拟合目标数据,然后利用某种误差分析确定一个与目标数据拟合程度最好的函数,图2-3就是一个非线性回归问题。

  回归模式的函数定义与分类模式相似,主要差别在于分类模式采用离散预测值(例如类标号),而回归模式采用连续的预测值。在这种观点下,分类和回归都是预测问题。但数据挖掘业界普遍认为:用预测法预测类标号为分类,预测连续值(例如使用回归方法)为预测。许多问题可以用线性回归解决,许多非线性问题可以通过对变量进行变化,从而转换为线性问题来解决。分类与回归建模原理如图2-4所示。

2.1.2 分类与回归算法

  分类与回归常用算法见表2-1。


时间: 2024-10-23 09:28:30

《数据挖掘:实用案例分析》——第2章 数据挖掘的应用分类 2.1 分类与回归的相关文章

《数据挖掘:实用案例分析》——1.4 数据挖掘现状及应用前景

1.4 数据挖掘现状及应用前景 "数据海量,信息缺乏"是大多数金融企业所面对的尴尬.目前,金融业实施的大多数数据库只能实现数据的录入.查询.统计等较低层次的功能,却无法发现数据中存在的各种有用信息,例如对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户.消费群体或组织的金融和商业需求,并观察金融市场的变化趋势. 作为一门应用技术,数据挖掘可谓涵盖广泛,尤其在发达国家,数据挖掘技术的触角已经伸向了各行各业.只要企业拥有具分析价值的数据源,皆可利用数据挖掘工具进行有目的的挖掘分

《数据挖掘:实用案例分析》——3.2 数据挖掘建模过程

3.2 数据挖掘建模过程 广州TipDM团队在多年的数据挖掘项目实施过程中,积累了一套行之有效的数据挖掘方法论,数据挖掘建模过程如图3-2所示. 3.2.1 定义挖掘目标 针对具体的数据挖掘应用需求,首先要非常清楚:本次的挖掘目标是什么?系统完成后能达到什么样的效果?因此我们必须分析应用领域,包括应用中的各种知识和应用目标.了解相关领域的有关情况,熟悉背景知识,弄清用户需求.要想充分发挥数据挖掘的价值,必须要对目标有一个清晰明确的定义,即决定到底想干什么.否则,很难得到正确的结果. 3.2.2

《数据挖掘:实用案例分析》——1.2 数据挖掘在企业商务智能应用中的定位

1.2 数据挖掘在企业商务智能应用中的定位 报告和商业智能解决方案对于了解过去和现在的状况是非常有用的.但是,预测分析解决方案还能使用户预见未来的发展状况,使其能够先发制人,而不是处于被动.数据分析和数据挖掘系统的目的是带给我们更多的决策支持信息,并不是取代数据报表.报表系统依然有其不可取代的优势,并且将会长期与数据分析.挖掘系统并存下去. 1.2.1 数据挖掘给企业带来最大的投资收益 预测分析解决方案将复杂的统计方法和机器学习技术应用到数据之中,通过使用预测分析技术来揭示隐藏在交易系统或企业资

《数据挖掘:实用案例分析》——第3章 数据挖掘建模 3.1 数据挖掘的过程

第3章 数据挖掘建模 数据挖掘是从海量数据中提取隐含在其中的有用信息和知识的过程.各运营支撑系统所积累的海量历史数据是企业的一笔宝贵财富,谁能正确地挖掘与分析隐含在数据中的信息,谁就能更好地向用户提供产品与服务,从而在竞争中脱颖而出. 3.1 数据挖掘的过程 数据挖掘提供了从数据到价值的解决方案: 数据+工具+方法+目标+行动=价值 目前,数据挖掘已有一系列应用:分类分析.聚类分析.预测分析.偏差分析.关联分析和时序模式等,这些应用涉及的技术和工具各不相同,然而却可以依据统一的方法论来实行,并可

《数据挖掘:实用案例分析》——导读

前 言 为什么要写这本书 现在,什么程序员最稀缺?什么技术最火?回答:数据挖掘! 数据挖掘是从大量数据(包括文本)中挖掘出隐含的.先前未知的.对决策有潜在价值的关系.模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法.工具和过程.数据挖掘有助于企业发现业务的趋势,揭示已知的事实,预测未知的结果,因此"数据挖掘"已成为企业保持竞争力的必要方法. 近年来企业所处理的数据每五年就会呈现倍数增长.大部分的企业并没有数据不足的问题,过度的数据重复与不一致才是大问题,这

《数据挖掘:实用案例分析》——3.3 常用的建模工具

3.3 常用的建模工具 数据挖掘是一个过程,只有将数据挖掘工具提供的技术和实施经验与企业的业务逻辑和需求紧密结合,并在实施的过程中不断地磨合才能取得成功.因此我们在选择数据挖掘工具的时候,要全面考虑多方面的因素,主要包括以下几点: 下面简单介绍几种常用的数据挖掘建模工具: 1.Enterprise Miner Enterprise Miner(简称EM)是SAS推出的一个集成的数据挖掘系统,允许使用和比较不同的技术,同时还集成了复杂的数据库管理软件.它的运行方式是通过在一个工作空间(Worksp

《数据挖掘:实用案例分析》——2.2 聚类

2.2 聚类 我们经常会碰到这样的问题: 1)如何通过一些特定的症状归纳某类特定的疾病? 2)谁是银行信用卡的黄金客户? 3)谁喜欢打国际长途,在什么时间,打到哪里? 4)对住宅区进行聚类,确定自动提款机ATM的安放位置. 5)如何对用户WAP上网行为进行分析,通过客户分群进行精确营销? 除此之外,促销应该针对哪一类客户,这类客户具有哪些特征?这类问题往往是在促销前首要解决的问题,对整个客户做分群,将客户分组在各自的群组里,然后对每个不同的群组,采取不同的营销策略.这些都是聚类分析的例子. 2.

《写给程序员的数据挖掘实践指南》——第1章 数据挖掘简介及本书使用方法

第1章 数据挖掘简介及本书使用方法写给程序员的数据挖掘实践指南假想150年前一个美国小镇的生活情形:大家都互相认识:百货店某天进了一批布料,店员注意到这批布料中某个特定毛边的样式很可能会引起Clancey夫人的高度兴趣,因为他知道Clancey夫人喜欢亮花纹样:于是他在心里记着等Clancey夫人下次光顾时将该布料拿给她看看:Chow Winkler告诉酒吧老板Wilson先生,他考虑将多余的雷明顿(Renmington)1来福枪出售:Wilson先生将这则消息告诉Bud Barclay,因为他

《数据挖掘:实用案例分析》——3.4 本章小结

3.4 本章小结 本章主要介绍了数据挖掘建模的方法论和常用的建模工具.实践表明,由于人工智能发展的局限性,计算机在未来相当长的一段时期内不可能像人类这样会进行复杂的思考,它只会按照人的指令工作.但是,计算机拥有海量的数据存储能力和超强的计算能力,所以只要我们建立合适的业务模型,设计完善的执行程序,选择正确的分析算法,它一定可以更好地为我们服务. 数据挖掘技术是一个年轻且充满希望的研究领域,商业利益的强大驱动力将会不停地促进它的发展.每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深