灵活有效的数据仓库解决方案,第3部分:设计并实现仓库ETL过程

简介

数据集成是数据仓库中的关键概念。ETL(数据的提取、转换和加载)过程的设计和实现是数据仓库解决方案中极其重要的一部分。ETL 过程用于从多个源提取业务数据,清理数据,然后集成这些数据,并将它们装入数据仓库数据库中,为数据分析做好准备。

ETL 过程设计

尽管实际的 ETL 设计和实现在很大程度上取决于为数据仓库项目选择的 ETL 工具,但是高级的系统化 ETL 设计将有助于构建高效灵活的 ETL 过程。

在深入研究数据仓库 ETL 过程的设计之前,请记住 ETL 的经验法则:“ETL 过程不应修改数据,而应该优化数据。”如果您发现需要对业务数据进行修改,但不确定这些修改是否会更改数据本身的含义,那么请在开始 ETL 过程之前咨询您的客户。

调制的 ETL 过程设计

由于其过程化特性以及进行数百或数千个操作的可能性,所以以精确方式设计 ETL 过程,从而使它们变得高效、可伸缩并且可维护就极为重要。ETL 数据转换操作大致可以分为 6 个组或模块:数据的提取、验证、清理、集成、聚集和装入。要安排好这些组,按照使这一过程获得最大简化、具有最佳性能和易于修改的逻辑次序来执行操作。下图中展示了执行的次序。

图 1. ETL 数据转换过程的功能模块设计


在项目的业务需求和数据分析阶段,我们创建了数据映射信息。有许多中记录数据映射的方式;ETL 数据映射表是指导 ETL 过程设计的最佳方式。您还可以将该表用作与业务客户就数据映射和 ETL 过程问题进行交流的方式。ETL 数据映射表有不同的级别,如实体级别和属性级别。每个级别中都具有不同级别的详细数据映射信息。下表是一个实体级别的 ETL 数据映射表的简化例子。该表中的每个“X”表示到操作细节或较低级数据映射文档的链接。

表 1. ETL 实体映射表

验证 清理 转换 集成 聚集 目标
账户客户 X X ? X X 客户
信贷客户 X X X
借贷客户 X ? X
支票账户 X X ? X X 账户
储蓄账户 X ? X
信贷账户 X ? X
借贷账户 X X ?

在 DB2 数据仓库中实现 ETL 过程

DB2 Universal Database Data Warehouse Editions 为数据仓库功能提供了改进的性能和可用性。DB2 Data Warehouse Center(DWC)是一个可视化的 ETL 设计和实现工具,它是 DB2 UDB 中的组成部分。这一节将查看如何使用 DB2 UDB(Version 8.2.1)Data Warehouse Center 设计和实现仓库 ETL 过程。

时间: 2024-09-17 04:27:45

灵活有效的数据仓库解决方案,第3部分:设计并实现仓库ETL过程的相关文章

灵活有效的数据仓库解决方案:第1部分:客户互动和项目计划

简介 商业智能(Business Intelligence)已经进化为包括越来越多的数据分析技术.无论采用哪种数据分析方法,数据仓库都仍然是利用信息资产的重要基础.本系列文章将帮助您使用 IBM DB2 Data Warehouse Edition(DB2 DWE)交付某种数据仓库基础设施,该基础设施对于随需应变的商业智能至关重要.本文将关注数据仓库计划,其中包括客户互动过程.业务发现.项目建议以及项目计划. 目标读者 本文是为需要知道如何交付数据仓库解决方案的 IT 专业人士撰写的.本文假定您

交付有效且灵活的数据仓库解决方案:第2部分:仓库设计和数据建模

简介 业务环境是在快速变化的,而业务数据的类型也是如此.一个成功的数据仓库解决方案的基础就是灵活的设计,这种设计可以适应不断变化的业务数据.数据仓库的架构和仓库数据的建模是仓库设计中的核心过程. 数据仓库的架构 当使用数据模型捕获业务需求时,您就已经完成了数据仓库设计中的部分工作.然而,正式的数据仓库设计应该从数据仓库的架构开始. 仓库架构是基于一些因素所做的关键决策,这些因素包括当前基础设施.业务环境.期望的管理和控制结构.实现工作的承诺和范围.企业所采用的技术环境的功能以及可用的资源等. 架

数据仓库解决方案指南

解决|数据 作者:Sybase软件(北京)有限公司 市场部副总监 夏红 内容:数据仓库概念,Sybase的数据仓库解决方案 -------------------------------------------------------------------------------- 数据仓库的概念 任何一个公司和企业,在订货.存货清单.票据清单.帐目清算.客户服务以及 财务报告等方面都存在大量的业务应用和技术环节.数据仓库的作用在于:从这 些应用系统中获取信息并转换到一个新的数据库,通过对新库

开源MySQL高效数据仓库解决方案:Infobright详细介绍_Mysql

Infobright是一款基于独特的专利知识网格技术的列式数据库.Infobright是开源的MySQL数据仓库解决方案,引入了列存储方案,高强度的数据压缩,优化的统计计算(类似sum/avg/group by之类),infobright 是基于mysql的,但不装mysql亦可,因为它本身就自带了一个.mysql可以粗分为逻辑层和物理存储引擎,infobright主要实现的就是一个存储引擎,但因为它自身存储逻辑跟关系型数据库根本不同,所以,它不能像InnoDB那样直接作为插件挂接到mysql,

MySQL数据仓库解决方案 Infobright 详解

Infobright是一款基于独特的专利知识网格技术的列式数据库.Infobright是开源的MySQL数据仓库解决方案,引入了列存储方案,高强度的数据压缩,优化的统计计算(类似sum/avg/group by之类),infobright 是基于mysql的,但不装mysql亦可,因为它本身就自带了一个.mysql可以粗分为逻辑层和物理存储引擎,infobright主要实现的就是一个存储引擎,但因为它自身存储逻辑跟关系型数据库根本不同,所以,它不能像InnoDB那样直接作为插件挂接到mysql,

解读基于数加的大数据仓库解决方案

数加是阿里云为企业大数据实施提供的一套完整的一站式大数据解决方案,覆盖了企业数仓.商业智能.机器学习.数据可视化等领域,助力企业在DT时代更敏捷.更智能.更具洞察力.数加平台构建在阿里云云计算基础设施之上,简单快速接入MaxCompute等计算引擎,支持ECS.RDS.OCS.AnalyticDB等云设施下的数据同步. 数加平台采用了先进的"可用不可见"的数据合作方式,并对数据所有者提供全方位的数据安全服务,数据安全体系包括:数据业务安全.数据产品安全.底层数据安全.云平台安全.接入&

DB2数据仓库环境的物理数据库设计:样例场景

这一节介绍了一个物理http://www.aliyun.com/zixun/aggregation/14208.html">数据模型,此模型是针对一家销售大量产品的虚构企业的数据仓库样例场景而设计.该企业数据仓库存储所有这些产品的日常销售数据. 本文中的示例基于样例场景. 物理数据模型设计 下图中的物理数据模型展示了样例数据仓库中使用的表和关系. 图 5. 样例数据仓库的物理数据模型 维度表 样例场景的物理数据模型包含以下维度表,其中存有日期.产品和店铺数据: TB_DATE_DIM TB

intelligentminer数据仓库解决方案

当用户的数据积累到一定数量时,这些数据的某些潜在联系.分类.推导结果和待发现价值隐藏在其中,我们可以使用数据发掘工具帮助发现这些有价值的数据,ibm在这方面的工具就是intelligentminer.ibmintelligentminer被选为业界最佳数据采集工具,赢得了dm读者奖.除了数据仓库和数据挖掘解决方案,ibm还在此基础上开发了一系列行业解决方案及应用程序. 1.ibm数据挖掘工具 intelligentminer通过其世界领先的独有技术,例如典型数据集自动生成.关联发现.序列规律发现

Sybase数据仓库解决方案在贵州电信的应用

概述 随着电信市场的逐步开放,新兴的运营商不断产生,电信市场的竞争日趋激烈.一方面,为了能够在竞争中生 存和持续发展,各电信运营商都对企业的经营和管理提出 了更高的要求.另一方面,电信运营商原来为支撑各种业 务运营所建立的计算机管理系统,由于功能比较单一,已 无法全面满足企业经营管理工作的需要,突出表现在: 单一系统产生的报表难以满足企业管理的要求; 相对固定的报表不能跟上市场形势的变化; 庞大的数据库系统不能有效地产生企业知识.电信企业迫切需要寻找到一种新的经营管理支撑手段,使管理人员能够及时