数据仓库之我见(概念篇)

概念|数据

1.什么是数据仓库
在W.H.Inmon所著"Building the Data Warehouse"一书中给出了数据仓库的定义:"数据仓库是面向主题的、整合的、稳定的,并且时变的收集数据以支持管理决策的一种数据结构形式。",说的通俗一点:数据仓库技术也就是俗称的分布式数据库加上一种制约条件,而形成的新的数据存储和处理方法。

而这个制约的规则正式本书讨论的重点。
2.从数据库à数据仓库的转变
为什么在有了这么多数据库产品之后,人们又要用数据仓库技术。业界的各路诸侯又如此趋之若鹜。这正是计算机技术应用需求的推动。当年数据库技术大发展的过程是伴随着OLTP(On Line Transaction Process联机业务处理)应用需求的推动。联机业务处理最迫切的技术要求就是快速响应。数据库技术,特别是基于E. F. Codd提出的关系理论的数据库的技术,将数据集分成了甚少冗余的实体(Entity),然后又将它们按一定的关系(Relationship)编织成一个有机的整体,比较完美地满足了OLTP的应用需求。对于每个业务处理最好只须涉及一个实体,业务处理对于实体的Add或Update也只涉及数据媒体的可能最小的空间(如记录级封锁技术),对于其它实体的相关更新通过关系保持了一致性和完整性。这个切合当时OLTP应用实际需求的理论和技术的成功,推动了关系数据库产品风靡世界。呵呵,是不是看得不太明白,没关系,多看几遍就明白了,这个含义是指:将数据按目的、使用频率分类存储,不同的应用访问不同的数据类,还不明白?你太笨了吧!
3.数据仓库是分布式系统中的重要一环
这是一个典型的分布式数据库设计图:

 
操作型数据

应该注意到,数据仓库并不是分布式系统,它是其中的一部分,但如果明白了数据仓库在其中的地位,那么也就知道了为什么叫数据仓库,而不叫分布式应用系统了。原因很简单,数据仓库是核心,其它的部分都要以它为圆心,最终的结果,便形成了一个类似太阳系的结构。

操作型数据是我们从各种各样的数据源中拿到的各种各样的数据,这是整个系统数据的最原始的状态,从中看到我11月11日打电话的纪录,也可以看到我在15日有什么账单,这个账单的具体内容,甚至还可以看到飞机的起飞和到达时间,如果你明白了这里面放了些什么,那你也就应该能看懂下面的东西。

操作型数据的特点:

1.  实时性:数据几乎都是当前值。

2.  数据源极其丰富,各种来自企业外部和内部产生的数据。

3.  对反应时间的要求很高。(你总不能为了添加一条账单记录等上1个小时吧)

所以由此也可以看出,就算是让我设计一个操作型数据库,也不是很难,:-) 提前说一句,操作型数据的设计遵循:需求à体系结构à完成代码à装入数据。

数据仓库最大特点就是一个“稳”字,先不说它是怎么从操作型数据中提取数据的,单说一说他的数据更新周期最少24小时,你就应该明白;用它的数据是不可能做一个实时性强的东西的,没错,它存在的目的不是让你去做什么有实时性的东西,它是为了让你能够利用从操作型数据库提取的数据作分析和统计工作。知道了么?这一点是很重要的。这也是每一个作DSS(以前称之为MIS)的分析员的追重要的工作,要不怎么叫决策分析系统呢:P

想知道他的好处还是听一听专家的意见吧:直接使用联机业务处理系统中的数据进行决策支持数据的分析处理是会产生许多麻烦的,甚至是实现不了的。这时候,人们就会问为什么系统中有我需要的数据,而我却无法运用呢!这不是说关系数据库不好,而是老产品遇到了新任务。E-R型的数据结构能完美地执行联机业务处理,但不适应较大规模的决策支持数据分析,尤其不适应企业级的决策支持数据分析处理的需要。适应这一需求,应运而生的就是数据仓库技术。

数据仓库的目标是为了制定管理的决策提供支持信息,这显著的与OLTP(联机事务处理)系统的快速响应需要不同。正象企业为了发展要进行业务重组一样,为了支持管理决策需要也要按决策业务科目的要求重组OLTP系统中的数据,并要按不同决策,分析内容分别组织使之方便使用。这种基于主题的模式从用户角度来看就是多重的数据重组结构。

在把数据装载到数据结构重组后的数据仓库之前,先要进行数据转换,或称"整合"处理。这一处理包括几个必不可少的操作步骤,做到使数据完整、统一,这就确保了在使用数据仓库时其中的数据是有质量保证的,对此后文有详述。简而言之,整合就是保证数据准确,到位,没有超出应有的数值范围,没有重复等。

OK!听明白了么?有点复杂么?不要紧,记住一点就行了:数据仓库就是为了给统计分析等工作,专门设计的数据支持,就这么简单,总结一下:

数据仓库:

1.  数据无实时性,更新时间较长。

2.  数据来源是操作型数据,经过一定模式的抽取。

3.  在处理的时候,对事件要求比较宽松。

它的设计可是相对复杂的,但可以肯定的是:数据仓库是按照:数据—〉需求。这也可以理解:巧妇难为无米之炊。你准备了一大堆萝卜可不也就只能作一道“萝卜开会”么!所以,DSS设计的宗旨是:你把我需要的给我,我再告诉你我想要的。听起来是不是挺别扭的。:)

到目前为止,你应该已经对数据仓库有了一个全面而粗浅的认识了,呵呵,下一步就应该是仔细的钻研一下伟大的Building the Data Warehouse啦。

                                                               马磊        Wednesday, November 29, 2000

时间: 2025-01-21 10:26:23

数据仓库之我见(概念篇)的相关文章

网络协议X档案概念篇

网络协议从专业角度定义,是计算机在网络中实现通信时必须遵守的约定,也即 通信协议.主要是对信息传输的速率.传输代码.代码结构.传输控制步骤.出错控制等作出规定,制定标准.我们把这些文章进行整理形成一个全集希望对初学者有所帮助.一.网络协议是什么?通俗地说,网络协议就是网络之间沟通.交流的桥梁,只有相同网络协议的计算机才能进行信息的沟通与交流.这就好比人与人之间交流所使用的各种语言,只有使用相同语言才能正常地.顺利进行交流.从专业角度定义,网络协议是计算机在网络中实现通信时必须遵守的约定,也即通信

C++面试题(一)——基础概念篇

C++面试题--基础概念篇 http://blog.csdn.net/worldwindjp/ 面试C++程序员的时候一般都是3板斧,先是基础问答,然后一顿虚函数.虚函数表.纯虚函数.抽象类.虚函数和析构函数.虚函数和构造函数.接着拷贝构造函数.操作符重载.下面是STL,最后是智能指针.        都能挺过去那基本知识这关应该算是过了,下面就是项目背景和算法了.      1,C++和C相比最大的特点                    1)面向对象:封装,继承,多态.          

数据仓库之我见 (设计篇)

设计|数据 建造数据仓库要做些什么?一般说来,建造数据仓库主要两个方面: 1.     与操作性数据库的接口设计. 2.     数据仓库本身的设计. 看上去好像很简单,但事实并非就这么按部就班,假设我是一个数据库设计师,我完全可以不管三七二十一,先载入一部分数据,让DSS分析员(还没忘吧,就是那个给设计数据仓库的人要求的)分析去吧,等他先给点意见出来,我们在动手也不迟. 下面,我将按照提出问题.解决问题的顺序来上一堂学前班.  建造数据仓库的主要难点是什么?首先纠正一个广泛存在的错误认识:建造

正则表达式的原理和介绍,应用(概念篇)

概念|正则 极小元的概念定义:对于任何的集合S1与S2,当S1∈S2且S1∩S2=空(没有空这个符号,我用中文字空代替)时,则称S1为S2的一极小元.OK说完了定义,我们来说说关于正则匹配的东东,可以把要寻找的那个字符串看成一个集合S1,而要寻找的是一个极小元,也就是一个子集而离散的正则定理:每个不空的集合,都有一极小元,明确的说出了,正则匹配的道理,我们要去寻找的是一个子集,也就是把大的字符串进行了分割,而其元素为一个个小的字符串子集正则公理的数学表达式:A≠空 推出 (存在x)(x∈A∧x∩

使命必达: 深入剖析WCF的可靠会话[概念篇]

在<实例篇>中,我通过可靠会话成功地进行了美女图片的传输,相信大家在保了眼福之余,会对WCF的可靠会话的功用具有一个深刻的认识.实际上,这涉及到WS中一个重要的概念--可靠消息传输(RM:Reliable Messaging).如果想对可靠会话有一个深入的认识,对可靠消息传输的了解是必须的. 一.可靠消息传输(Reliable Messaging) 我们可以将一个通过WCF构建的分布式应用划分为两个部分,即客户端应用和服务端应用,它们之间的交互方式即采用某种MEP的消息交换.在这里,我们需要通

SQL Server 表变量和临时表系列之概念篇

问题引入 "菜鸟啊,最近我看到阿里云开发者论坛的数据库RDS中有人在提SQL Server表变量和临时表如何选择的问题,你去深入探讨下这个问题吧,解答解答他们的疑惑吧",老鸟又开始为菜鸟找活干了. "鸟哥啊,关于表变量和临时表使用选择的问题啊,向来行业里争论不休,我比较担心我们的观点被人家拍砖啊". "鸟啊,有争论才说明这个问题有价值啊,所以我们才更应该去弄清楚,道明白啊".反正老鸟总会找到合适的理由. "那好吧,要把这个问题要刨根问底

ASP.NET 2.0服务器控件开发之基本概念篇

asp.net|服务器|概念|控件|控件开发     利用ASP.NET 2.0技术,创建Web自定义服务器控件并不是一件轻松的事情.因为,这需要开发人员了解并能够灵活应用多种Web开发技术,例如,CSS样式表.客户端脚本语言..NET开发语言.服务器控件开发技术,甚至是当前最火的AJAX技术等等.虽然现实如此"艰难",但是这种开发技术也不是真的难到不可掌握.事事都要从头做起.本文将针对利用ASP.NET 2.0技术,创建Web自定义服务器控件的基础知识进行详细介绍,内容包括:服务器控

利用ISCSI存储技术构建IP存储网络(概念篇)

一.iSCSI的概念 iSCSI是一种在Internet协议上,特别是以太网上进行数据块传输的标准,它是一种基于IP Storage理论的新型存储技术,该技术是将存储行业广泛应用的SCSI接口技术与IP网络技术相结合,可以在IP网络上构建SAN存储区域网,简单地说,iSCSI就是在IP网络上运行SCSI协议的一种网络存储技术.iSCSI技术最初由Cisco和IBM两家发起,并且得到了广大IP存储技术爱好者的大力支持.这几年迅速的发展壮大了起来. 对于中小企业的存储网络来说,iSCSI是个非常好的

数据仓库专题20-案例篇:电商领域数据主题域模型设计v0.2(改进意见征集中)

一.电商分类(平台+自营+复合)  (1)平台型电商:淘宝+天猫+百度Mall等:  (2)自营型电商:         2.1 综合型:京东(早期)+当当(早期):         2.2 垂直型:好像这种类型越来越少了:  (3)复合型电商(平台+自营):京东+当当+亚马逊等:  二.平台型电商特点(三无+两有+一核心)  (1)三无:无商品.无库存.无物流:  (2)两有:有钱+有人:  (3)一核心:数据 三.主题域模型-L0级:v.1       四.主题域模型-L1级:v0.1