数据仓库专题(6)-数据仓库、主题域、主题概念与定义

一、数据仓库

      关于数据仓库概念的标准定义业内认可度比较高的,是由数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出:

      中文定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。

      英文定义:A data warehouse is a subject-oriented, integrated, nonvolatile, and time-variant collection of data in support of management’s decisions.

二、主题

      主题是与传统数据库的面向应用相对应的,是一个抽象概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。每一个主题对应一个宏观的分析领域。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式, 就是在较高层次上对分析对象数据的一个完整并且一致的描 述,能刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系。所谓较高层次是相 对面向应用的数据组织方式而言的, 是指按照主题进行数据组织的方式具有更高的数据抽象 级别。 与传统数据库面向应用进行数据组织的特点相对应, 数据仓库中的数据是面向主题进行组织的。主题是根据分析的要求来确定的。这与按照数据处理或应用的要求来组织数据是不同的。

三、主题域

  主题域通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分到不同的主题域。主题域的确定必须由最终用户数据仓库的设计人员共同完成。

四、主题域、主题、实体间关系

  主题设计是对主题域进一步分解,细化的过程。主题域下面可以有多个主题,主题还可以划分成更多的子主题,而实体则是不可划分的最小单位。主题域、主题、实体的关系如下图所示:

 

五、关于主题域的争议

  曾经在看到过关于主题域的另外一个定义方式:“主题域是对某个主题进行分析后确定的主题的边界”。相关内容如下文所示:

主题域是对某个主题进行分析后确定的主题的边界。分析主题域,确定要装载到数据仓库的主题是 信息打包技术的第一步。而在进行数据仓库设计时,一般是一次先建立一个主题或企业全部主题中的一部分,因此在大多数数据仓库的设计过程中都有一个主题域的 选择过程。主题域的确定必须由最终用户和数据仓库的设计人员共同完成

比如,对于Adventure Works Cycle这种类型的公司管理层需要分析的主题一般包括供应商主题、商品主题、客户主题和仓库主题。其中商品主题的内容包括记录超市商品的采购情况、商品 的销售情况和商品的存储情况;客户主题包括的内容可能有客户购买商品的情况;仓库主题包括仓库中商品的存储情况和仓库的管理情况等,如图3-31所示。

图3-31  根据业务情况确定的分析主题

确定主题边界实际上需要进一步理解业务关系,因此在确定整个分析主题后,还需要对这些主题进行初步的细化才便于获取每一个主题应该具有的边界。对于图3-31的4个主题及其在企业中的业务关系可以确定边界如图3-32所示。

 

 

图3-32  主题域的划分

经过对以上内容深入分析,发现此定义与:”主题域通常是联系较为紧密数据主题的集合“并不矛盾,只是所站的视角不同,“数据主题集合”的观点从数据着眼,前提是已经经过分析、梳理列出所有可能的数据主题,此处数据主题是细粒度的,是从微观到宏观;“边界论”的观点中,某个主题是分析的主题,是宏观概念,而非数据主题。

六、未完待续

  分布式数据仓库数据存储模型设计进行中,后续会持续更新,请关注QQ群:分布式数据仓库建模 398419457。

时间: 2024-12-10 02:20:01

数据仓库专题(6)-数据仓库、主题域、主题概念与定义的相关文章

数据仓库专题(5)-如何构建主题域模型原则之站在巨人的肩上(一)IBM-FSDM主题域模型划分

一.前言       如何构建主题域模型原则是构建企业级数据仓库重要的议题,最好的路径就是参照成熟的体系.IBM金融数据模型数据存储模型FSDM,是金融行业应用极为广泛的数据模型,可以作为我们构建企业级数据仓库主题域模型划分的重要依据.本文就IBM FSDM主题域模型进行初步的介绍. 二.模型结构 三.标准定义 关系人 IP 银行的业务开展过程中的相关各方,个人.机构.柜员.. 合约 AR 参与者之间达成的 合约.合同.协议等 条件 CD 描述银行的业务正常开展,所需要的前提条件.资格标准和要求

数据仓库专题20-案例篇:电商领域数据主题域模型设计v0.2(改进意见征集中)

一.电商分类(平台+自营+复合)  (1)平台型电商:淘宝+天猫+百度Mall等:  (2)自营型电商:         2.1 综合型:京东(早期)+当当(早期):         2.2 垂直型:好像这种类型越来越少了:  (3)复合型电商(平台+自营):京东+当当+亚马逊等:  二.平台型电商特点(三无+两有+一核心)  (1)三无:无商品.无库存.无物流:  (2)两有:有钱+有人:  (3)一核心:数据 三.主题域模型-L0级:v.1       四.主题域模型-L1级:v0.1  

数据仓库专题(3)-分布式数据仓库事实表设计思考

一.前言 最近在设计数据仓库的数据逻辑模型,考虑到海量数据存储在分布式数据仓库中的技术架构模式,需要针对传统的面相关系型数据仓库的数据存储模型进行技术改造.设计出一套真正适合分布式数据仓库的数据存储模型. 二.事实表设计基础       事实表记录发生在现实世界中的操作型事件,其所产生的可度数值.事实表的设计完全依赖于物理活动,不受可能产生的最终报表的影响.事实表中,除数字度量外,事实表总是包含外键,用于关联与之相关的维度,也可以包含退化的维度键和日期/时间戳. 三.传统模式 以FS-LDM数据

数据仓库专题(2)-Kimball维度建模四步骤

一.前言 四步过程维度建模由Kimball提出,可以做为业务梳理.数据梳理后进行多维数据模型设计的指导流程,但是不能作为数据仓库系统建设的指导流程.本文就相关流程及核心问题进行解读. 二.数据仓库建设流程 以下流程是根据业务系统.组织结构.团队结构现状设定的数据仓库系统建设流程,适合系统结构复杂,团队协作复杂,人员结构复杂的情况,并且数据仓库建设团队和业务系统建设团队不同的情况.具体流程如下图所示:   图1 数据仓库系统建设流程   三.四步维度建模 Kimball四步建模流程适合上述数据仓库

wordpress给博客主题添加自定义主题设置页面

如果想给主题添加自定义的主题页面呢? 先来看看Ryan's提供的方法:如何在wordpress主题中添加设置页面. 读完这篇文章,相信我们已经可以为主题添加一个主题设置页面了,嗯,但是好像还有些问题:     如何在顶级菜单中添加多个设置页面?     设置页面中我想添加css和js,怎么实现?     必须要把那么多的代码都写在functions文件中吗?     要让使用者选择文章分类,自定义页面,图片上传等等复杂的业务选项呢? ok,下面我们动手来解决上面几个问题: 先看最终实现的效果:

MindMapper浮动主题子主题使用教程

  在MindMapper中,添加了一个浮动主题之后,若是你明确知道会添加几个子主题,则可同样正常按Shift键再按数字键添加几个空白子主题,再接着添加内容,完善浮动主题; MindMapper浮动主题子主题的伸展方向默认是向右的,很有可能会不太适合当前思维导图,你可以点击[首页]工具栏上的"格式"按钮,在"伸展方向"选项中,应用你想要的一种类型; 为了使MindMapper浮动主题包括子主题和中心主题在样式等方面表现的更加契合,你也可以调整MindMapper浮动

《位置大数据隐私管理》—— 1.2 概念与定义

1.2 概念与定义 1.2.1 位置表示与定位技术 位置通常由三元组(x, y, t)表示,其中(x, y)表示移动对象所在的经纬度或者在某个参考坐标系(如UTM坐标系)下的坐标值,t表示时刻.表1-1展示移动对象O1.O2.O3在t1.t2.t3时刻的位置.以O1为例,在t1时刻,O1的位置坐标是(1, 2):在t2时刻,O1的位置坐标是(3, 3)等. 一个用户在不同时刻的位置组成该用户的轨迹.轨迹是移动对象的位置信息按时间排序形成的序列.通常情况下,一条轨迹可表示为: 其中,id是轨迹标识

《移动数据挖掘》—— 1.2 概念与定义

1.2 概念与定义 前面提到移动数据是移动轨迹的集合,而移动轨迹是移动记录的有序序列.移动记录是〈时间,位置〉对,可以记录诸如用GPS设备等连续采样的数据,也可以记录诸如移动社交网络中签到等事件类型的数据.对于GPS设备采集的连续位置信息存在停留点,用户需要在附近停留一定的时间.因而,停留点是带有位置.到达时间及停留时间信息的点.对于非停留点位置,用户可能只是路过所以并不感兴趣,因而连续的GPS位置数据通常会被处理成停留点的序列.移动社交网络是移动位置服务和社交媒体的结合体,是一种与朋友分享地点

数据仓库专题(8)-维度属性选择之维护历史是否应该保留

一.背景 数据仓库建模过程中,针对事务型事实表设计,经常会遇到维度属性选择的问题,比如客户维度,在操作型系统中,为了跟踪客户状态的变化,往往会附加客户记录的四个属性:       1.add time:添加时间: 2.add user:添加用户: 3.mod time:修改时间: 4.mod user:修改用户: 问题在于,当我们进行维度建模的时候,如果以客户作为维度,是否应该考虑以上四个属性? 二.观点 1.应该保留 (1)我觉得 添加时间 可以作为维度属性,以后可能进行相关的统计: 2.不应