数据挖掘概述(又)

数据

数据挖掘工具是怎样准确地告诉你那些隐藏在数据库深处的重要信息的呢?它们又是如何作出预测的?答案就是建模。建
模实际上就是在你知道结果的情况下建立起一种模型,并且把这种模型应用到你所不知道的那种情况中。比如说,如果你
想要在大海上去寻找一艘古老的西班牙沉船,也许你首先想到的就是去找找过去发现这些宝藏的时间和地点有哪些。那
么,经过调查你发现这些沉船大部分都是在百慕大海区被发现,并且那个海区有着某种特征的洋流,以及那个时代的航线
也有一定的特征可寻。在这众多的类似特征中,你将它们抽象并概括为一个普适的模型。利用这个模型,你就很有希望在
具有大量相同特征的另外一个地点发现一件不为人知的宝藏。

    当然,在数据挖掘技术甚至计算机出现以前,这种建模抽象的方法就已经广泛地被人们所使用。在计算机中的建模和
以前的建模方法并无很大不同,主要的差异在于计算机能处理的信息量比起以前来更加庞大。计算机中能够存储已知了结
果的大量不同情况,然后由数据挖掘工具从这些大量的信息里面披沙拣金,将能够产生模型的信息提取出来。一当模型建
立好了之后,就可以应用在那些情形相似但结果尚未知的判断中了。比如,现在假设你是一个电信公司的营销主任,公司
想发展一些新的长途电话用户,那么你是不是会漫无目的地到街上去散发广告呢?——就象漫无目的地在海上去寻宝一
样。其实,比起漫无目的地去进行宣传来,利用你以前的商业经验来有目的地去拉拢客户会产生高得多的效率。

    作为一个营销主任,你对客户的很多信息都可以了解得一清二楚:年龄、性别、信用记录以及长途电话使用状况。从
好的一方面来看,掌握了这些客户的信息其实就是掌握了很多潜在的用户的同样的信息。问题在于你还不一定了解他们的
长途电话使用情况(因为他们的长途电话也许是通过的另一个电信公司)。现在你的主要精力就集中在用户中谁有比较多
的长途电话上。通过下面这个表格,我们可以从数据库里面抽象某些变量,建立起一个可以对此进行分类营销的模型。
  客户 潜力
一般信息
(e.g. demographic data) 已知 已知
私有信息
(e.g. customer transactions) 已知 待定

表二、数据挖掘应用于分类营销

    根据我们创建的从一般信息到私有信息的计算模型,我们可以得出表二右下方表格中的信息。比如,一个电信公司的
简化模型可以是:年薪6万美圆以上的98%的客户,每个月长话费80美圆以上。根据这个模型,我们就能应用这些数据来推
断出公司现在尚不能明确的私有信息,这样,新客户群体就可以大体确定出来了。小型市场的试销数据对于这样的模型来
说显得极为有用。因为小范围内试销数据的挖掘,能够为全部市场的分类销售打下一个良好的基础。表三则描述了另外一
样数据挖掘的普遍应用:预测。
  过去 现在 将来
静态信息和当前计划 已知 已知 已知
动态信息 已知 已知 待定

表三、数据挖掘应用于预测

数据挖掘的体系结构

    现有很多数据挖掘工具是独立于数据仓库以外的,它们需要独立地输入输出数据,以及进行相对独立的数据分析。为
了最大限度地发挥数据挖掘工具的潜力,它们必须象很多商业分析软件一样,紧密地和数据仓库集成起来。这样,在人们
对参数和分析深度进行变化的时候,高集成度就能大大地简化数据挖掘过程。下图显示了一个大型数据库中的高级分析过
程。

 

集成后的数据挖掘体系

    应用数据挖掘技术,较为理想的起点就是从一个数据仓库开始,这个数据仓库里面应保存着所有客户的合同信息,并
且还应有相应的市场竞争对手的相关数据。这样的数据库可以是各种市场上的数据库:Sybase、Oracle、Redbrick、和其
他等等,并且可以针对其中的数据进行速度上和灵活性上的优化。

    联机分析系统OLAP服务器可以使一个十分复杂的最终用户商业模型应用于数据仓库中。数据库的多维结构可以让用户
从不同角度,——比如产品分类,地域分类,或者其他关键角度——来分析和观察他们的生意运营状况。数据挖掘服务器
在这种情况下必须和联机分析服务器,以及数据仓库紧密地集成起来,这样就可以直接跟踪数据和并辅助用户快速作出商
业决策,并且用户还可以在更新数据的时候不断发现更好的行为模式,并将其运用于未来的决策当中。

    数据挖掘系统的出现代表着常规决策支持系统的基础结构的转变。不象查询和报表语言仅仅是将数据查询结果反馈给
最终用户那样,数据挖掘高级分析服务器把用户的商业模型直接应用于其数据仓库之上,并且反馈给用户一个相关信息的
分析结果。这个结果是一个经过分析和抽象的动态视图层,通常会根据用户的不同需求而变化。基于这个视图,各种报表
工具和可视化工具就可以将分析结果展现在用户面前,以帮助用户计划将采取怎样的行动。

产生利润的工具

    有很多公司都成功地安装了数据挖掘工具。早先采用了这种技术的公司大部分都是信息密集型公司,比如金融服务和
邮件营销系统,但是现在这种技术已经准备好应用于各个公司中,只要公司具有大型数据库,并且有强烈的通过软件技术
改善公司管理的愿望。但是采用数据挖掘技术,公司必须两个关键的因素,一个就是大型的,集成化的数据库;另一个就
是定义完善的商业处理程序,这样数据挖掘才好紧密地应用于公司数据之上。

    采用数据挖掘技术的一些成功应用,例如一个药品公司,通过对它最近的营销强度和销售结果的分析,来决定哪一种
营销活动在最近几个月内对高附加值的医生群体影响最大,这样的分析建立在竞争对手的销售活动信息和当地健康状况的
数据系统之上。然后这个药品公司可以通过其办公网络,将分析结果传达到各地的销售代表处,销售代表们则可以根据公
司传递的关键信息来作出相应的销售抉择,这样,在快速变化的、动态的市场上,销售代表们都可以根据各种特殊情况的
分析作出最优的选择。

结语
    全面集成了客户、供应者以及市场信息的大型数据仓库导致公司内的信息呈爆炸性增长,企业在市场竞争中,需要及
时而准确地对这些信息作复杂的分析。为了更加及时地,更加准确地作出利于企业的抉择,建立在关系数据库和联机分析
技术上的数据挖掘工具为我们带来了一个新的转机。目前,数据挖掘工具正以前所未有的速度发展,并且扩大着用户群
体,在未来越加激烈的市场竞争中,拥有数据挖掘技术必将比别人获得更快速的反应,赢得更多的商业机会。

时间: 2024-10-03 01:33:04

数据挖掘概述(又)的相关文章

《python 与数据挖掘 》一第1章 数据挖掘概述 1.1 数据挖掘简介

本节书摘来自华章出版社<python 与数据挖掘 >一书中的第1章,第1.1节,作者张良均 杨海宏 何子健 杨 征,更多章节内容可以访问"华章计算机"公众号查看. 第1章 数据挖掘概述 广义的数据挖掘是指针对收集的大规模数据,应用整套科学工具和挖掘技术(如数据.计算.可视化.分析.统计.实验.问题定义.建模与验证等),从数据之中发现隐含的.对决策有参考意义的信息.价值和趋势.因此,数据挖掘是一个横跨多学科的计算机科学分支.强调它隶属计算机科学范畴,是希望读者认识到这个领域的

数据挖掘概述

数据 随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息,如果能把这些信息从数据库中抽取出来,将为公司创造很多潜在的利润,而这种从海量数据库中挖掘信息的技术,就称之为数据挖掘.     数据挖掘工具能够对将来的趋势和行为进行预测,从而很好地支持人们的决策,比如,经过对公司整个数据库系统的分析,数据挖掘工具可以回答诸如"哪个客户对我们公司的邮件推销活动最有可能作出反应,为什么"等类似的问题.有些数据挖掘工具还能够解决一些

数据库的数据挖掘概述(二)

数据|数据库 数据挖掘工具是怎样准确地告诉你那些隐藏在数据库深处的重要信息的呢?它们又是如何作出预测的?答案就是建模.建模实际上就是在你知道结果的情况下建立起一种模型,并且把这种模型应用到你所不知道的那种情况中.比如说,如果你想要在大海上去寻找一艘古老的西班牙沉船,也许你首先想到的就是去找找过去发现这些宝藏的时间和地点有哪些.那么,经过调查你发现这些沉船大部分都是在百慕大海区被发现,并且那个海区有着某种特征的洋流,以及那个时代的航线也有一定的特征可寻.在这众多的类似特征中,你将它们抽象并概括为一

数据库的数据挖掘概述(一)

数据|数据库 随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息,如果能把这些信息从数据库中抽取出来,将为公司创造很多潜在的利润,而这种从海量数据库中挖掘信息的技术,就称之为数据挖掘.     数据挖掘工具能够对将来的趋势和行为进行预测,从而很好地支持人们的决策,比如,经过对公司整个数据库系统的分析,数据挖掘工具可以回答诸如"哪个客户对我们公司的邮件推销活动最有可能作出反应,为什么"等类似的问题.有些数据挖掘工具还能够

数据挖掘——概述

数据挖掘:运用基于计算机的方法(包括新技术)从数据中获得有用知识的整个过程,这就叫做数据挖掘. 在当今竞争的世界中,数据挖掘所扮演的角色越来越重要. 数据挖掘是一个迭代的过程.它从大量数据中搜寻有价值,非同寻常的新信息.这是人和计算机合作的结果. 数据挖掘的基本目标为:预测 和 描述.     预测性数据挖掘:生成给定数据集所描述的系统模型     描述性数据挖掘: 在可用的数据基础上生成新的,非同寻常的信息. 数据挖掘的基本任务:      分类--发现某个预测学习功能,将一个数据项分类到几个

数据挖掘与数据化运营实战

大数据技术丛书 数据挖掘与数据化运营实战:思路.方法.技巧与应用 卢辉 著 图书在版编目(CIP)数据 数据挖掘与数据化运营实战:思路.方法.技巧与应用 / 卢辉著.-北京:机械工业出版社,2013.6 (大数据技术丛书) ISBN 978-7-111-42650-9 I. 数- II. 卢- III. 数据采集 IV. TP274 中国版本图书馆CIP数据核字(2013)第111479号 版权所有·侵权必究 封底无防伪标均为盗版 本书法律顾问 北京市展达律师事务所     本书是目前有关数据挖

《python 与数据挖掘 》 一 导读

前 言 为什么要写本书? Python是什么? Python是一种带有动态语义的.解释性的.面向对象的高级编程语言.其高级内置数据结构,结合动态类型和动态绑定,使其对于敏捷软件开发非常具有吸引力.同时,Python作为脚本型(胶水)语言连接现有的组件也十分高效.Python语法简洁,可读性强,从而能降低程序的维护成本.不仅如此,Python支持模块和包,鼓励程序模块化和代码重用. Python语言的解释性使其语法更接近人类的表达和思维过程,开发程序的效率极高.习惯使用Python者,总习惯在介绍

数据挖掘与数据化运营实战.导读

 本书是目前有关数据挖掘在数据化运营实践领域比较全面和系统的著作,也是诸多数据挖掘书籍中为数不多的穿插大量真实的实践应用案例和场景的著作,更是创造性地针对数据化运营中不同分析挖掘课题类型,推出一一对应的分析思路集锦和相应的分析技巧集成,为读者提供"菜单化"实战锦囊的著作.作者结合自己数据化运营实践中大量的项目经验,用通俗易懂的"非技术"语言和大量活泼生动的案例,围绕数据分析挖掘中的思路.方法.技巧与应用,全方位整理.总结.分享,帮助读者深刻领会和掌握"以业

《python 与数据挖掘 》——第一部分 基 础 篇

第一部分 基 础 篇第1章 数据挖掘概述第2章 Python基础入门第3章 函数第4章 面向对象编程第5章 Python实用模块第6章 图表绘制入门