数据仓库建设步骤

数据仓库建设步骤

Posted on 2015-03-04 10:18 xuzhengzhu 阅读(1164) 评论(0) 编辑 收藏

1.系统分析,确定主题

确定一下几个因素:
    ·操作出现的频率,即业务部门每隔多长时间做一次查询分析。
    ·在系统中需要保存多久的数据,是一年、两年还是五年、十年。
    ·用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。
    ·用户所能接受的响应时间是多长、是几秒钟,还是几小时。

2.选择满足数据仓库系统要求的软件平台

选择合适的软件平台,包括数据库、建模工具、分析工具等。有许多因素要考虑,如系统对数据量、响应时间、分析功能的要求等,以下是一些公认的选择标准:
    ·厂商的背景和支持能力,能否提供全方位的技术支持和咨询服务。
    ·数据库对大数据量(TB级)的支持能力。
    ·数据库是否支持并行操作。
    ·能否提供数据仓库的建模工具,是否支持对元数据的管理。
    ·能否提供支持大数据量的数据加载、转换、传输工具(ETT)。
    ·能否提供完整的决策支持工具集,满足数据仓库中各类用户的需要。

3.建立数据仓库的逻辑模型

具体步骤如下:
    (1)确定建立数据仓库逻辑模型的基本方法。
    (2)基于主题视图,把主题视图中的数据定义转到逻辑数据模型中。
    (3)识别主题之间的关系。
    (4)分解多对多的关系。
    (5)用范式理论检验逻辑数据模型。
    (6)由用户审核逻辑数据模型。

4.逻辑数据模型转化为数据仓库数据模型

具体步骤如下:
    (1)删除非战略性数据:数据仓库模型中不需要包含逻辑数据模型中的全部数据项,某些用于操作处理的数据项要删除。
    (2)增加时间主键:数据仓库中的数据一定是时间的快照,因此必须增加时间主键。
    (3)增加派生数据:对于用户经常需要分析的数据,或者为了提高性能,可以增加派生数据。
    (4)加入不同级别粒度的汇总数据:数据粒度代表数据细化程度,粒度越大,数据的汇总程度越高。粒度是数据仓库设计的一个重要因素,它直接影响到驻留在数据仓库中的数据量和可以执行的查询类型。显然,粒度级别越低,则支持的查询越多;反之,能支持的查询就有限。

5.数据仓库数据模型优化

数据仓库设计时,性能是一项主要考虑因素。在数据仓库建成后,也需要经常对其性能进行监控,并随着需求和数据量的变更进行调整。
优化数据仓库设计的主要方法是:
    ·合并不同的数据表。
    ·通过增加汇总表避免数据的动态汇总。
    ·通过冗余字段减少表连接的数量,不要超过3~5个。
    ·用ID代码而不是描述信息作为键值。
    ·对数据表做分区。

6.数据清洗转换和传输

由于业务系统所使用的软硬件平台不同,编码方法不同,业务系统中的数据在加载到数据仓库之前,必须进行数据的清洗和转换,保证数据仓库中数据的一致性。
    在设计数据仓库的数据加载方案时,必须考虑以下几项要求:
    ·加载方案必须能够支持访问不同的数据库和文件系统。
    ·数据的清洗、转换和传输必须满足时间要求,能够在规定的时间范围内完成。
    ·支持各种转换方法,各种转换方法可以构成一个工作流。
    ·支持增量加载,只把自上一次加载以来变化的数据加载到数据仓库

7.开发数据仓库的分析应用

建立数据仓库的最终目的是为业务部门提供决策支持能力,必须为业务部门选择合适的工具实现其对数据仓库中的数据进行分析的要求。
    信息部门所选择的开发工具必须能够:
    ·满足用户的全部分析功能要求。数据仓库中的用户包括了企业中各个业务部门,他们的业务不同,要求的分析功能也不同。如有的用户只是简单的分析报表,有些用户则要求做预测和趋势分析。
    ·提供灵活的表现方式。分析的结果必须能够以直观、灵活的方式表现,支持复杂的图表。使用方式上,可以是客户机/服务器方式,也可以是浏览器方式。
    事实上,没有一种工具能够满足数据仓库的全部分析功能需求,一个完整的数据仓库系统的功能可能是由多种工具来实现,因此必须考虑多个工具之间的接口和集成性问题,对于用户来说,希望看到的是一致的界面。

8.数据仓库的管理

只重视数据仓库的建立,而忽视数据仓库的管理必然导致数据仓库项目的失败。数据仓库管理主要包括数据库管理和元数据管理。
    数据库管理需要考以下几个方面:
    ·安全性管理。数据仓库中的用户只能访问到他的授权范围内的数据,数据在传输过程中的加密策略。
    ·数据仓库的备份和恢复。数据仓库的大小和备份的频率直接影响到备份策略。
    ·如何保证数据仓库系统的可用性,硬件还是软件方法。
    ·数据老化。设计数据仓库中数据的存放时间周期和对过期数据的老化方法,如历史数据只保存汇总数据,当年数据保存详细记录。
    然而,元数据管理贯穿于整个系统的建设过程中,元数据是描述数据的数据。在数据采集阶段,元数据主要包括下列信息:
       ·源数据的描述定义:类型、位置、结构。
       ·数据转换规则:编码规则、行业标准。
       ·目标数据仓库的模型描述:星型/雪花模型定义,维/事实结构定义。
       ·源数据到目标数据仓库的映射关系:函数/表达式定义。
       ·代码:生成转换程序、自动加载程序等。
    在数据管理阶段,元数据主要包括下列信息:
    ·汇总数据的描述:汇总/聚合层次、物化视图结构定义。
    ·历史数据存储规则:位置、存储粒度。
    ·多维数据结构描述:立方体定义、维结构、度量值、钻取层次定义等。
       在数据展现阶段,元数据主要包括以下信息:
       ·报表的描述:报表结构的定义。
       ·统计函数的描述:各类统计分析函数的定义。
       ·结果输出的描述:图、表输出的定义。
    元数据不但是独立存放,而且对用户是透明的,标准元数据之间可以互相转换

时间: 2024-09-20 09:24:15

数据仓库建设步骤的相关文章

大数据下的企业数据仓库建设

为何要建数据仓库 数据仓库整体架构 数据仓库-分层                      数据仓库-STG层 数据仓库-ODS层 数据仓库-DWD层 数据仓库-DWS层 dws层示例                                      数据仓库-DWS层 数据仓库-DIM层 数据仓库处理流程 数据治理    数据平台整体架构 数据仓库建设的价值

数据仓库建设持续改进数据质量

数据仓库系统的建设过程和方法不同于建设传统的操作型处理系统的过程和方法,数据仓库系统建设有两个难点:一是如何保证数据质量,使得数据准确可信:二是如何构造应用体系,使之满足不同角色用户的分析决策需要. 受生产系统现状的影响,如数据源的数据不完整.不一致,数据抽取时间点不能同步,本地网之间存在市场竞争及业务规则的差异性,各专业之间统计口径的不一致等,数据质量问题客观存在,数据质量问题的管控工作将贯穿数据仓库系统建设的整个过程.数据仓库系统应用来源于用户需求,来源于开发商的商业理解,应用的开发和完善也

当前数据仓库建设过程

一个典型的企业数据仓库通常包含数据采集.数据加工和存储.数据展现等几个过程,本篇文章将按照这个顺序记录部门当前建设数据仓库的过程. 1. 数据采集和存储 采集数据之前,先要定义数据如何存放在 hadoop 以及一些相关约束.约束如下: 所有的日志数据都存放在 hdfs 上的 /logroot 路径下面 hive 中数据库命名方式为 dw_XXXX,例如:dw_srclog 存放外部来源的原始数据,dw_stat 存放统计结果的数据 原始数据都加工成为结构化的文本文件,字段分隔符统一使用制表符,并

工行张颖:围绕数据仓库建设信息管理架构体系

2013 Teradata 大数据峰会日前在北京国际饭店召开.中国工商银行信息科技部副总经理张颖在会上做发言,介绍了工行是如何利用数据与信息来提升管理水平与业务价值的. 工行现在已经成为中国最大的商业银行.据张颖介绍,工行在北京和上海都建有数据中心,当前各分行与下属机构正在全面向电子化方向发展.从统计数据来看,2012年上半年工行手机银行新增客户中动户率提升至18%,交易额同比增长300%,2012年底ATM的数量已超过7万个,目前75%的工行业务已不是在柜台办理的,业务服务网络已覆盖超过30多

国航袁俐分享航空业数据仓库建设经验

3月16日,享誉全球的第12届Teradata数据仓库暨企业分析峰会在苏州召开,分会以"数据价值极致演绎"为主题,深入探讨企业如何充分利用最新数据仓库和企业分析技术,借助数据源所提供的洞察力,快速制定最佳业务决策,把握商业先机.Teradata总裁兼首席执行官迈克尔·科勒.首席技术官宝立明.大中华区辛儿伦等出席了本次峰会. 在下午的分会场二,中国航空股份有限公司信息管理部数据中心总监袁俐做了以"数据资产在航空业的应用价值"为主题的演讲. 袁俐指出,为了迎接大数据到来

外链建设步骤应该遵循两点,从面子到里子

  今天想谈一下外链建设的面子和里子的问题,何为面子,何为里子,无非就是外链的重心偏移的过程,面子即为主页,里子即为内页,一直想说面子和里子的排布权重外链问题,这篇文章,就从这个角度上来阐述下自己的观点吧,如何保住自己的面子,又让自己的里子得到最大的充实. 很多时候,当我们一直在彷徨,一直在思考,一直在努力的为自己的网站建设庞大的外链机制的时候,总是会忘记很多很多应该有的外链排布问题,因为看着那些个友情链接,哪一个不是做的首页,如果说首页是一道面子的话,那么你给它的也太过于浓厚了一些,一个网站当

谈流量站到品牌站的建设步骤

中介交易 SEO诊断 淘宝客 云主机 技术大厅 每一个草根站长都有一个梦,幻想着自己的站某一天能达到几十万或者上百万的流量,日进斗金,睡觉也能数钱.可是现实却是残酷的,有很多人在一开始就输了,有更多人死在了半路了上,能坚持到最后已经寥寥无几了.随着百度算法的不断变化,不断升级,很多流量站一蹶不振,从此走向了没落,今天我们谈一下如何把手中的流量站转化为品牌站,让网站有序经营下去. 一.品牌的形成 步骤一:确立品牌核心价值和品牌文化 品牌核心价值是品牌的灵魂,贯穿着品牌形象建立的各个环节.而确立品牌

经验总结:简单分析网站的建设步骤

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 本文将用最简短的语言概括SEO实际操作的基本流程.具体问题各个章节均有讨论,现在将各个章节的内容串联起来. 一 建立网站 当你确定网站的主题后就可以开始制作网页了. 1为每个网页确定标题:撰写标题尽量使用短小精悍的文字,每个页面的标题应该不同且反映本页面实际内容. 2 标题中要包含关键字:关键字出现频率要适当.不宜在标题处堆砌关键字. 3 适

创业公司做数据分析(六)数据仓库的建设

作为系列文章的第六篇,本文将重点探讨数据处理层中数据仓库的建设.在第二篇运营数据系统一文,有提到早期的数据服务中存在不少问题,虽然在做运营Dashboard系统时,对后台数据服务进行了梳理,构建了数据处理的底层公共库等,但是仍然存在一些问题: 中间数据流失,计算结果没有共享.比如在很多数据报告中都会对同一个功能进行数据提取.分析,但是都是各自处理一遍,没有对结果进行共享. 数据分散在多个数据源,如MySQL.MongoDB.Elasticsearch,很难对多个源的数据进行联合使用.有效组织.