跟我一起数据挖掘(1)——建立数据仓库的意义

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。 为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。

1、多数据整合

将分布在各处的数据整合到统一的数据仓库中,以便处理。

上图是数据仓库的典型结构。

数据经过抽取、清理、装载、刷新等步骤完成统一的数据仓库化。

2、构建数据立方

通常数据仓库是对历史数据进行的多维度的分析,那么就需要构建数据立方体。每个维对应于模式中的一个或一组属性。来看一张图更深入的理解一下:

立方体的三个维度分别为地区、时间和产品,我们可以根据不同的维度分组,得到哪个地区哪个产品的销售件数、销售金额等多种数据,每个数据落到数据立方的相应的区域中。同时,数据立方也可以根据不同的维度进行上下钻取。

时间维度上可以向上钻取到年,向下钻取到月。地区维度可以向下钻取到某个地市的区,如果是跨国的向上钻取到国家,中国、日本等。商品可以向上钻取到分类,向下钻取到品牌。

3、事务数据记录

事务数据是指在一个处理过程中,如用户到超市的一次购买记录,网站的一次登录到点击流程,对应的记录方式为:

点击流这个概念更注重用户浏览网站的整个流程,网站日志中记录的用户点击就像是图上的“点”,而点击流更像是将这些“点”串起来形成的“线”。

形成事务数据记录,而记录的结果可以根据需要进行构建。

这些数据对于进行购物栏分析,频繁项集的挖掘非常有用。

4、其它类型数据

包括时间相关的序列数据、空间数据(如地图)、网页数据等多种数据格式。根据消息流可以进行入侵检测、通过时间序列可以进行趋势预测、通过顾客的意见,了解产品在市场被接受的程度,大数据已经深入了影响了我们的生活,而数据仓库的构建是重中之重。

时间: 2024-11-17 17:28:30

跟我一起数据挖掘(1)——建立数据仓库的意义的相关文章

建立数据仓库的八条基本准则

数据仓库应用具有从多个分散的部门级系统中捕捉大量共享信息的能力.它们可以将机构的原始数据有效地转化为有用的知识信息,于是这些知识信息就可以被用来进行战略决策支持,从而提高企业效益.在一个先进的数据仓库应用的帮助下,企业决策者可以从质量.区域收入和产量等基本面上对企业性能进行跟踪,并基于这些可靠的信息采取快速.明智的行动. 本文将阐述建立数据仓库的八条规则,尤其是如何建立第一个数据仓库.实际上,对于如何建立一个成功的数据仓库,现实中不存在也根本不可能存在一个涵盖万千.放之四海而皆准的"宝书&quo

利用MaxCompute建立数据仓库的超强实战手册

       小源科技成立于2011年,是一家专注移动互联网领域的产品研发和运营的创业公司,我们秉承"点滴源泉,无际蓝海"的公司经营理念,坚信融入用户才能发现需求,专注一点才能做到极致,快速前进才能永葆领先,为用户所想才能实现价值.小源科技是智能短信概念的提出者和先行者,也是国内最大的情景短信平台运营商.目前包括三星及国内大部分知名手机厂商均采用了小源科技的信析宝智能短信SDK整体解决方案.公司团队主要成员来自金山.多玩.QUEST等国内外一流IT企业,拥有5-10年的丰富从业经验,擅

vs2008数据挖掘-vs2008建立数据挖掘模型

问题描述 vs2008建立数据挖掘模型 把数据都弄好后,建立挖掘模型之后,挖掘模型查看器打不开,说由于项目部署失败,导致无法显示最新的挖掘模型内容

XML与面向Web的数据挖掘技术

web|xml|数据   <?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />        面向Web的数据挖掘   Web上有海量的数据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点.数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题.充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用.相对于Web的数据而言,传统的

SQLSERVER数据仓库的构建与分析

server|sqlserver|数据     SQLSERVER数据仓库的构建与分析   (一)基本概念:     1.多维数据集:多维数据集是联机分析处理 (OLAP) 中的主要对象,是一项可对数据仓库中的数据进行快速访问的技术.多维数据集是一个数据集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结构.     2.维度:是多维数据集的结构性特性.它们是事实数据表中用来描述数据的分类的有组织层次结构(级别).这些分类和级别描述了一些相似的成员集合,用户将基于这些

9大数据仓库特点比较

比较|数据 IBM.Oracle.Sybase.CA.NCR.Informix.Microsoft.和SAS等有实力的公司相继(通过收购或研发的途径)推出了自己的数据仓库解决方案,BO和Brio等专业软件公司也在前端在线分析处理工具市场上占有一席之地.下面针对这些数据仓库解决方案的性能和特点做分析和比较. IBMIBM公司提供了一套基于可视数据仓库的商业智能(BI)解决方案,包括:Visual Warehouse(VW).Essbase/DB2 OLAP Server 5.0.IBM DB2

数据仓库常见名词浅释

数据 数据仓库常见名词浅释Data Warehouse本世纪80年代中期,"数据仓库之父"William H.Inmon先生在其<建立数据仓库>一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理和决策中面向主题的.集成的.与时间相关的.不可修改的数据集合.与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合.加工和分析的过程.而不是一种可以购买的产品.Data mart数据集市,或者叫做"小数据仓库&quo

ZT:数据仓库常见名词浅释

数据 ZT:数据仓库常见名词浅释     Data Warehouse本世纪80年代中期,"数据仓库之父"William H.Inmon先生在其<建立数据仓库>一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理和决策中面向主题的.集成的.与时间相关的.不可修改的数据集合.与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合.加工和分析的过程.而不是一种可以购买的产品.Data mart数据集市,或者叫做"小

数据仓库与企业应用集成(一)

数据 主要内容 一.  从系统和整体的角度来考虑数据仓库的开发二.  CIF的概念和内容三.CIF 的案例-SAP BW四.数据仓库与企业应用集成五.小结 References 摘要 本文的主要内容在于介绍企业信息工厂并探讨在建立数据仓库和企业应用时应考虑的系统性和整体性. 因此本文主要针数据仓库的最新发展,结合SAP BW的实际案例,本文讲述企业信息工厂(CIF)的构想.概念和内容,同时也阐述了在设计企业应用时应考采用的思维方式,我们将以一个新的角度来看待数据.   一.  从系统和整体的角度