交付有效且灵活的数据仓库解决方案:第2部分:仓库设计和数据建模

简介

业务环境是在快速变化的,而业务数据的类型也是如此。一个成功的数据仓库解决方案的基础就是灵活的设计,这种设计可以适应不断变化的业务数据。数据仓库的架构和仓库数据的建模是仓库设计中的核心过程。

数据仓库的架构

当使用数据模型捕获业务需求时,您就已经完成了数据仓库设计中的部分工作。然而,正式的数据仓库设计应该从数据仓库的架构开始。

仓库架构是基于一些因素所做的关键决策,这些因素包括当前基础设施、业务环境、期望的管理和控制结构、实现工作的承诺和范围、企业所采用的技术环境的功能以及可用的资源等。

架构选择

仓库架构将决定数据仓库和数据集市本身的位置,以及控制所驻留的位置,或者反之。例如,数据可以驻留在集中进行管理的中心位置中。或者,数据可以驻留在集中或独立管理的分布式的本地和/或远程位置中。

有以下一些架构选择:

业务范围(Business-wide)的数据仓库

独立的数据集市

互连的数据集市

这些架构选择也可以组合使用。例如,数据仓库架构可以在物理上分布或集中管理。

业务范围的数据仓库架构

业务范围的数据仓库就是将支持整个或一大部分业务的数据仓库,该业务需要更加完全集成的数据仓库,跨部门和业务线(line of business)具有较高的数据访问和使用率。即基于整个业务需求设计和构造仓库。可以将之视作可跨整个企业使用的决策支持数据的公共存储库,或其中的一个大型子集。这里所使用的术语“业务范围(business-wide)”反映的是数据访问和使用的范围,而非物理结构。在整个企业中,业务范围的数据仓库在物理上可以是集中式的,也可以是分布式的。

独立的数据集市架构

独立的数据集市架构暗指单独的数据集市,这些数据集市是由特定的工作组、部门或业务线进行控制的,完全是为满足其需求而构建的。实际上,它们甚至与其他工作组、部门或业务线中的数据集市没有任何连通性。

图 1. 数据仓库架构选择


互连的数据集市架构

互连的数据集市架构基本上是分布式的实现。虽然不同的数据集市是在特定的工作组、部门或生产线中实现的,但它们可以是集成、互连的,以提供更加全局的业务范围的数据视图。实际上,在最高的集成层次上,它们可以成为业务范围的数据仓库。这意味着一个部门中的终端用户可以访问和使用另一部门中数据集市中的数据。

您应选择哪种架构?

如果您客户的业务和数据源是相对集中的,那业务范围的集中式数据仓库架构就是最明智的选择。这实际上对于中间市场的公司而言是很普遍的情况。否则,对于在地理上广泛分布的业务而言,互连的数据集市和业务范围的分布式数据仓库就是更加实用的选择。

独立的数据集市架构不是一种好方法,因为它违背了数据仓库的关键概念:数据集成。

时间: 2024-08-04 06:28:00

交付有效且灵活的数据仓库解决方案:第2部分:仓库设计和数据建模的相关文章

灵活有效的数据仓库解决方案,第3部分:设计并实现仓库ETL过程

简介 数据集成是数据仓库中的关键概念.ETL(数据的提取.转换和加载)过程的设计和实现是数据仓库解决方案中极其重要的一部分.ETL 过程用于从多个源提取业务数据,清理数据,然后集成这些数据,并将它们装入数据仓库数据库中,为数据分析做好准备. ETL 过程设计 尽管实际的 ETL 设计和实现在很大程度上取决于为数据仓库项目选择的 ETL 工具,但是高级的系统化 ETL 设计将有助于构建高效灵活的 ETL 过程. 在深入研究数据仓库 ETL 过程的设计之前,请记住 ETL 的经验法则:"ETL 过程

灵活有效的数据仓库解决方案:第1部分:客户互动和项目计划

简介 商业智能(Business Intelligence)已经进化为包括越来越多的数据分析技术.无论采用哪种数据分析方法,数据仓库都仍然是利用信息资产的重要基础.本系列文章将帮助您使用 IBM DB2 Data Warehouse Edition(DB2 DWE)交付某种数据仓库基础设施,该基础设施对于随需应变的商业智能至关重要.本文将关注数据仓库计划,其中包括客户互动过程.业务发现.项目建议以及项目计划. 目标读者 本文是为需要知道如何交付数据仓库解决方案的 IT 专业人士撰写的.本文假定您

数据仓库解决方案指南

解决|数据 作者:Sybase软件(北京)有限公司 市场部副总监 夏红 内容:数据仓库概念,Sybase的数据仓库解决方案 -------------------------------------------------------------------------------- 数据仓库的概念 任何一个公司和企业,在订货.存货清单.票据清单.帐目清算.客户服务以及 财务报告等方面都存在大量的业务应用和技术环节.数据仓库的作用在于:从这 些应用系统中获取信息并转换到一个新的数据库,通过对新库

开源MySQL高效数据仓库解决方案:Infobright详细介绍_Mysql

Infobright是一款基于独特的专利知识网格技术的列式数据库.Infobright是开源的MySQL数据仓库解决方案,引入了列存储方案,高强度的数据压缩,优化的统计计算(类似sum/avg/group by之类),infobright 是基于mysql的,但不装mysql亦可,因为它本身就自带了一个.mysql可以粗分为逻辑层和物理存储引擎,infobright主要实现的就是一个存储引擎,但因为它自身存储逻辑跟关系型数据库根本不同,所以,它不能像InnoDB那样直接作为插件挂接到mysql,

MySQL数据仓库解决方案 Infobright 详解

Infobright是一款基于独特的专利知识网格技术的列式数据库.Infobright是开源的MySQL数据仓库解决方案,引入了列存储方案,高强度的数据压缩,优化的统计计算(类似sum/avg/group by之类),infobright 是基于mysql的,但不装mysql亦可,因为它本身就自带了一个.mysql可以粗分为逻辑层和物理存储引擎,infobright主要实现的就是一个存储引擎,但因为它自身存储逻辑跟关系型数据库根本不同,所以,它不能像InnoDB那样直接作为插件挂接到mysql,

解读基于数加的大数据仓库解决方案

数加是阿里云为企业大数据实施提供的一套完整的一站式大数据解决方案,覆盖了企业数仓.商业智能.机器学习.数据可视化等领域,助力企业在DT时代更敏捷.更智能.更具洞察力.数加平台构建在阿里云云计算基础设施之上,简单快速接入MaxCompute等计算引擎,支持ECS.RDS.OCS.AnalyticDB等云设施下的数据同步. 数加平台采用了先进的"可用不可见"的数据合作方式,并对数据所有者提供全方位的数据安全服务,数据安全体系包括:数据业务安全.数据产品安全.底层数据安全.云平台安全.接入&

期货行业数据仓库解决方案

随着计算机信息技术的普及,数据仓库与数据挖掘技术在我国金融业(如银行.证券.保险等行业)得到了比较广泛的应用,但是在国内期货行业,由于资金.技术.人员等问题,期货公司还很少涉及这一领域,使其在对市场研究和品种研究上始终面临着一个无法穿越的"瓶颈". 我国期货业数据仓库应用现状 我国期货市场历经10多年的磨砺后,如今已经进入发展的"快车道".期货市场的"火热"和上市品种的不断丰富,吸引了大量的投资者进入.由于期货市场是一个高风险与高收益并存的市场,

ADO.NET:使用实体框架灵活地为数据建模

本文将介绍以下内容: 实体框架背后的原理 实体数据模型 查询.映射和 n 层开发 本文使用了以下技术: ADO.NET.LINQ.实体框架 框架概念最初是在 2006 年作为 ADO.NET vNext 引入的,现在它已准备好要在即将发布的 Visual Studio 2008 SP1 中大显身手.在历经多年对类似产品的多次失败尝试后,Microsoft 随 Visual Studio 2008 发布了部分适合于对象关系映射 (ORM) 空间的下列两种技术:LINQ to SQL 和 ADO.N

从大数据建模到集成解决方案,普林科技要深挖政企用户价值

普林科技是一家主要为政企客户提供大数据服务的公司.2014年5月成立,初期主要为金融客户提供风控模型,后来逐渐延伸至零售行业的精准营销,以及电力.新能源领域的智能预警等,目标用户以政府.大型企业为主. 创始人鄂维南为中国科学院院士.北京大数据研究院院长,团队成员均拥有海内外Top10学校背景,其中拥有北京大学背景的占60%,最核心的能力就是数据建模. 一开始,普林科技主要聚焦在为金融客户提供风控模型.公司曾与P2P平台人人贷合作开发信贷风控模型,并将之产品化.至于数据采集,普林科技仅提供一个辅助