数据仓库和OLAP(概念)

联机分析处理

简写为OLAP,随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。在国外,不少软件厂商采取了发展其前端产品来弥补关系数据库管理系统支持的不足,力图统一分散的公共应用逻辑,在短时间内响应非数据处理专业人员的复杂查询要求。

联机分析处理(OLAP)系统是数据仓库系统最主要的应用,专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。.

数据仓库

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。 为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。

数据仓库特点

数据仓库的特点可以从数据仓库的定义来理解。目前数据仓库的定义是不统一的。公认的数据仓库之父W.Hinmon将其定义为:“数据仓库是支持管理决策过程的、面向主题的、集成的、随时间而变的、持久的数据集合。”他指出了数据仓库面向主题、集成、稳定和随时间变化这4个最重要的特征。

1.面向主题

业务系统是以优化事务处理的方式来构造数据结构的,对于某个主题的数据常常分布在不同的业务数据库中。这对于商务分析和决策支持来说是极为不利的,因为这意味着访问某个主题的数据实际上需要去访问多个分布在不同数据库中的数据集合。

对于商务分析来说,典型的主题域有客户、产品、交易(销售)和收益等。例如在图3-2中示例了一个以零售业为主的企业情况。该企业在以前的企业信息化中已经构建了消费数据库、客户服务数据库和市场信息数据库。其中,消费数据库记录了客户对不同产品的消费情况,客户服务数据库记录了客户的咨询和投诉情况。这2个数据都是客户主题的相关数据。如果直接使用业务系统进行决策支持,则需要分别访问这2个数据库才能获得客户各个侧面的信息,这样将极大的浪费系统处理的时间和效率,并且数据之间的不一致性和不同步问题,将极大影响决策的可靠性。

基于以上的原因,数据仓库将这些数据集中于一个地方,在这种结构中,对应某个主题的全部数据被存放在同一数据表中,这样决策者可以非常方便地在数据仓库中的一个位置检索包含某个主题的所有数据。在图3-2中,有客户和市场两个分析主题,客户主题可以从消费数据库和客户服务数据库中获得客户消费和咨询等全方位的信息;市场主题可以从市场信息数据库分析市场的发展趋势。这种按主题的数据组织方法,极大地方便了数据分析的过程。主题的具体分析过程将在下一节学习。
     错误! 

 

图3-2  数据仓库面向主题的特性

2.集成的

全面而正确的数据是有效地进行分析和决策的首要前提。在某一个主题的统帅下,需要将数据进行提取、净化、转换和装载等集成操作。

比如在客户主题中,对于客户名称,业务数据库的设计中有的字段名为user_name,类型为char(10),有的字段名是name,类型是varchar(12),但在进入分析数据库时必须使用同一字段的命名和格式。这在SQL Server 2005中实际上是通过SSIS来完成的,但在数据库设计阶段也需要把数据的集成方案设计出来,而具体的操作则主要体现在对SSIS的操作上。

3.稳定的

业务系统一般只需要当前数据,在数据库中一般也存储短期数据,因此在数据库系统中数据是不稳定的,它记录的是系统中每一个变化的瞬态。但对于决策分析而言,历史数据是相当重要的,许多分析方法必须以大量的历史数据为依托。没有历史数据的详细分析是难以把握企业的发展趋势的,因此,数据仓库对数据在空间和时间的广度上都有了更高的要求。在数据仓库中,数据一旦被写入就不再变化了。数据仓库可以看成是一个虚拟的只读数据库系统。在数据集成性中已经说明了数据仓库在数据存储方面是分批进行的,定期执行提取过程为数据仓库增加记录,但是这些记录一旦加入,就不再从系统中删除。正是由于数据仓库的这个显著特点,使得数据仓库不需要在并发读写控制上投入过多的精力,因为所有的用户只是以只读的方式访问数据仓库。

图3-3演示了数据稳定性的一个简单的例子。在1月2日,99号客户的消费金额为200元,当时间推移到3月2日,99号客户的消费金额变成250元,这一信息在业务系统中被更新了。但是在数据仓库中(我们假定数据仓库每天进行一次数据提取),3月2日的数据提取结果是在数据仓库中增加了记录222,原先的记录111并没有发生任何的改变,说明99号客户在3月2日的消费金额为250元。可见,数据仓库实际上是为99号客户的消费行为进行了定期的拍照,并将快照存储起来供后续的分析工作使用。

 

图3-3  数据仓库的数据稳定性示例

4.随时间变化的

由于在数据仓库中数据只增不减,这使得数据仓库中的数据总是拥有时间维度。数据仓库实际上就是记录系统的各个瞬态,并通过将各个瞬态连接起来形成动画,从而在数据分析的时候再现系统运动的全过程。数据提取的周期实际上决定了动画间隔的时间,数据提取的周期短,则动画的速度快,图3-4示意了这种特点。

图3-4  数据仓库数据随时间变化的特点

数据仓库同数据库相比,还具有其他的特点。如数据仓库中的数据不再像数据库中的数据具有严格规范化的特点,这也是由数据仓库的应用需求决定的。数据仓库为了能够在尽量短的时间内将数据呈现给使用人员,使用所谓的“空间换时间”的技术,牺牲了数据的规范化,增加了数据的冗余度,从而减少系统的响应时间。再如,数据库系统和数据仓库系统在硬件的利用模式上具有很大的区别。在数据库环境下,硬件资源利用率总是保持在一个相对稳定的状态,这是由于不断地有事务需要处理。而在数据仓库环境下,系统的硬件资源常常在高利用率和低利用率之间切换。当系统进行数据分析应用时,硬件资源的利用率很高,而系统空闲(数据分析的工作在每天的某些时段进行,并不像事务处理工作那样一直进行)时,硬件资源的利用率就很低,如图3-5所示。

 

图3-5  数据库系统和数据仓库系统的硬件利用率

由于数据库系统和数据仓库系统在硬件利用率上的差异,我们难于在同一台服务器上既进行优化操作型处理,又进行优化分析型处理,因此数据库系统和数据仓库系统在物理上应当由不同的服务器来运行。

时间: 2024-09-24 03:39:12

数据仓库和OLAP(概念)的相关文章

基于数据仓库和OLAP技术的故障分析应用研究

电视行业是制作业的一个重要组成部分,电视的故障分析涉及因素很多,会产生海量的数据.随着国内外市场竞争的日趋激烈,传统的联机事务处理,即向数据库中添加信息和更新数据,已经不能满足用户的需求,而起源于对大量数据分析的需求,基于对业务数据决策分析的数据仓库(Data WareHouse)和联机分析处理(OLAP),比以往任何时候都显得重要. 1 数据仓库技术 数据仓库是近年来兴起的一种新的数据库应用.它可以将分析决策所需的大量数据从传统的操作环境中分离出来,使分散.不一致的操作数据转换成集成.统一的信

数据仓库之我见(概念篇)

概念|数据 1.什么是数据仓库在W.H.Inmon所著"Building the Data Warehouse"一书中给出了数据仓库的定义:"数据仓库是面向主题的.整合的.稳定的,并且时变的收集数据以支持管理决策的一种数据结构形式.",说的通俗一点:数据仓库技术也就是俗称的分布式数据库加上一种制约条件,而形成的新的数据存储和处理方法. 而这个制约的规则正式本书讨论的重点.2.从数据库à数据仓库的转变为什么在有了这么多数据库产品之后,人们又要用数据仓库技术.业界的各路

Informix Warehouse Feature入门,第1部分 用Design Studio进行数据仓库建模

开始之前 关于本系列 这个教程 系列 Informix Warehouse Feature 入门 介绍 Informix Warehouse 中新的客户机和服务器软件的特点和功能.可以使用这些工具创建和部署数据仓库项目,在 Informix 数据仓库平台上进行数据库建模,对数据转换和转移过程进行自动化,从而轻松地把不同数据源中的数据集成到 Informix 仓库中. 本系列中的教程按部署次序组织:首先,使用 Informix Warehouse 软件的客户机组件 Design Studio 创建

SQL Server数据仓库相关概念及构建流程

本文给出了SQL Server数据仓库的基本概念,并利用实例构建过程进行分析,供大家参考! 基本概念: 1.多维数据集:多维数据集是联机分析处理 (OLAP) 中的主要对象,是一项可对数据仓库中的数据进行快速访问的技术.多维数据集是一个数据集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结构. 2.维度:是多维数据集的结构性特性.它们是事实数据表中用来描述数据的分类的有组织层次结构(级别).这些分类和级别描述了一些相似的成员集合,用户将基于这些成员集合进行分析. 3

Kylin-实践OLAP

OLAP的历史与基本概念   OLAP全称为在线联机分析应用,是一种对于多维数据分析查询的解决方案.典型的OLAP应用场景包括销售.市场.管理等商务报表,预算决算,经济报表等等. 最早的OLAP查询工具是发布于1970年的Express,然而完整的OLAP概念是在1993年由关系数据库之父EdgarF.Codd 提出,伴随而来的是著名的"twelvelaws of online analytical processing". 1998年微软发布MicrosoftAnalysis Ser

OLAP联机分析处理介绍

作用 联机分析处理是共享多维信息的.针对特定问题的联机数据访问和分析的快速软件技术.它通过对信息的多种可能的观察形式进行快速.稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察.决策数据是多维数据,多维数据就是决策的主要内容.OLAP专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速.灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案.

数据挖掘中的概念描述

数据挖掘一般可分为描述型数据挖掘和预测型数据挖掘,概念描述讲的就是描述型数据挖掘. 一.概念描述基本知识 1.1 两种类型的数据挖掘 从数据分析角度出发,数据挖掘可分为两种类型: 描述型数据挖掘:以简洁概要方式描述数据 预测型数据挖掘:预测性数据挖掘则是通过对所提供数据集应用特定方法分析所获得的一个或一组数据模型,并将该模型用于预测未来新数据的有关性质. 1.2 概念描述 描述型数据挖掘又称为概念描述,概念描述是数据挖掘的一个重要部分.描述型数据挖掘最简单的类型就是概念描述.概念描述描述的是数据

我们需要怎样的OLAP?

被狭义化的OLAP OLAP是商业智能应用中重要的组成部分,这个词从字面上理解是在线分析的意思,也就是由用户,特别是业务人员,面对数据进行各种分析操作. 但是,现在的OLAP概念被严重狭义化了.说到OLAP,基本上仅指多维分析,也就是针对一个事先建设好的数据立方体,按指定维度层次进行汇总并呈现成表格或图形,再辅以钻取.聚合.旋转.切片等操作以变换维度层次及汇总范围.多维分析的基本思路认为,直接观察大范围统计值过于粗略,无法精确定位问题,需要剥茧抽丝似地对可能有问题的大范围统计值一步步钻取到更细层

Apache Kylin权威指南2.1 核心概念

第2章 快?速?入?门 第1章介绍了Kylin的概况,以及与其他SQL on Hadoop技术的比较,相信读者对Kylin已经有了一个整体的认识.本章将详细介绍Kylin的一些核心概念,然后带领读者逐步定义数据模型,创建Cube,并通过SQL来查询Cube,以帮助读者对Kylin有更为直观的了解. 2.1 核心概念 在开始使用Kylin之前,我们有必要先了解一下Kylin里的各种概念和术语,为后续章节的学习奠定基础. 2.1.1 数据仓库.OLAP与BI 数据仓库(Data Warehouse)