《BI那点儿事》META DATA(元数据)

原文:《BI那点儿事》META DATA(元数据)

关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理。为数据仓库的发展和使用提供方便。
关于数据的数据,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。
不同 OLAP 组件中的数据和应用程序的结构模型。元数据描述 OLTP 数据库中的表、数据仓库和数据集市中的多维数据集这类对象,还记录哪些应用程序引用不同的记录块。

当需要了解某地企业及其提供的服务时,电话黄页的重要性就体现出来了。元数据(Metadata)类似于这样的电话黄页。

  • 元数据的定义

数据仓库的元数据是关于数据仓库中数据的数据。它的作用类似于数据库管理系统的数据字典,保存了逻辑数据结构、文件、地址和索引等信息。广义上讲,在数据仓库中,元数据描述了数据仓库内数据的结构和建立方法的数据。
元数据是数据仓库管理系统的重要组成部分,元数据管理器是企业级数据仓库中的关键组件,贯穿数据仓库构建的整个过程,直接影响着数据仓库的构建、使用和维护。
(1)构建数据仓库的主要步骤之一是ETL。这时元数据将发挥重要的作用,它定义了源数据系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新的规则、数据导入历史记录以及装载周期等相关内容。数据抽取和转换的专家以及数据仓库管理员正是通过元数据高效地构建数据仓库。
(2)用户在使用数据仓库时,通过元数据访问数据,明确数据项的含义以及定制报表。
(3)数据仓库的规模及其复杂性离不开正确的元数据管理,包括增加或移除外部数据源,改变数据清洗方法,控制出错的查询以及安排备份等。
元数据可分为技术元数据和业务元数据。技术元数据为开发和管理数据仓库的IT 人员使用,它描述了与数据仓库开发、管理和维护相关的数据,包括数据源信息、数据转换描述、数据仓库模型、数据清洗与更新规则、数据映射和访问权限等。而业务元数据为管理层和业务分析人员服务,从业务角度描述数据,包括商务术语、数据仓库中有什么数据、数据的位置和数据的可用性等,帮助业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用。
由上可见,元数据不仅定义了数据仓库中数据的模式、来源、抽取和转换规则等,而且是整个数据仓库系统运行的基础,元数据把数据仓库系统中各个松散的组件联系起来,组成了一个有机的整体,如图所示

  • 元数据的存储方式

元数据有两种常见存储方式:一种是以数据集为基础,每一个数据集有对应的元数据文件,每一个元数据文件包含对应数据集的元数据内容;另一种存储方式是以数据库为基础,即元数据库。其中元数据文件由若干项组成,每一项表示元数据的一个要素,每条记录为数据集的元数据内容。上述存储方式各有优缺点,第一种存储方式的优点是调用数据时相应的元数据也作为一个独立的文件被传输,相对数据库有较强的独立性,在对元数据进行检索时可以利用数据库的功能实现,也可以把元数据文件调到其他数据库系统中操作;不足是如果每一数据集都对应一个元数据文档,在规模巨大的数据库中则会有大量的元数据文件,管理不方便。第二种存储方式下,元数据库中只有一个元数据文件,管理比较方便,添加或删除数据集,只要在该文件中添加或删除相应的记录项即可。在获取某数据集的元数据时,因为实际得到的只是关系表格数据的一条记录,所以要求用户系统可以接受这种特定形式的数据。因此推荐使用元数据库的方式。
元数据库用于存储元数据,因此元数据库最好选用主流的关系数据库管理系统。元数据库还包含用于操作和查询元数据的机制。建立元数据库的主要好处是提供统一的数据结构和业务规则,易于把企业内部的多个数据集市有机地集成起来。目前,一些企业倾向建立多个数据集市,而不是一个集中的数据仓库,这时可以考虑在建立数据仓库(或数据集市)之前,先建立一个用于描述数据、服务应用集成的元数据库,做好数据仓库实施的初期支持工作,对后续开发和维护有很大的帮助。元数据库保证了数据仓库数据的一致性和准确性,为企业进行数据质量管理提供基础。

  • 元数据的作用

在数据仓库中,元数据的主要作用如下。
(1)描述哪些数据在数据仓库中,帮助决策分析者对数据仓库的内容定位。
(2)定义数据进入数据仓库的方式,作为数据汇总、映射和清洗的指南。
(3)记录业务事件发生而随之进行的数据抽取工作时间安排。
(4)记录并检测系统数据一致性的要求和执行情况。
(5)评估数据质量。

  • 元数据分类:技术元数据;商业元数据;数据仓库操作型信息。-[Alex Berson etc, 1999]

技术元数据
包括为数据仓库设计人员和管理员使用的数据仓库数据信息,用于执行数据仓库开发和管理任务。包括:

  1. 数据源信息
  2. 转换描述(从操作数据库到数据仓库的映射方法,以及转换数据的算法)
  3. 目标数据的仓库对象和数据结构定义
  4. 数据清洗和数据增加的规则
  5. 数据映射操作
  6. 访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问,等等

商业元数据

  1. 给用户易于理解的信息,包括:
  2. 主题区和信息对象类型,包括查询、报表、图像、音频、视频等
  3. Internet主页
  4. 支持数据仓库的其它信息,例如对于信息传输系统包括预约信息、调度信息、传送目标的详细描述、商业查询对象,等

数据仓库操作型信息
例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法

QA:
“元数据是描述数据的数据(Data about Data)”,这造成一种递归定义,就像问小强住在哪里,答,在旺财隔壁。按照这样的定义,元数据所描述的数据是什么呢?还是元数据。这样就可能有元元元...元数据。我还听说过一种对元数据,如果说数据是一抽屉档案,那么元数据就是分类标签。那它和索引有什么区别。

时间: 2024-07-28 15:44:55

《BI那点儿事》META DATA(元数据)的相关文章

《BI那点儿事—数据的艺术》目录索引

原文:<BI那点儿事-数据的艺术>目录索引 原创·<BI那点儿事-数据的艺术>教程免费发布 各位园友,大家好,我是Bobby,在学习BI和开发的项目的过程中有一些感悟和想法,整理和编写了一些学习资料,本来只是内部学习使用,但为了方便更多的BI开发者,推动BI企业级应用开发,决定整理成一部教程,并在网络上免费发布该教程,希望为BI时代贡献绵薄之力! 本教程是由Bobby参考官方文档,综合市面相关书籍,经过充分的吸收消化,结合开发实践的而创作的一部原创作品,为了本教程及早与广大读者同仁

《BI那点儿事》三国人物智力分布状态分析

原文:<BI那点儿事>三国人物智力分布状态分析 献给广大的三国爱好者们,希望喜欢三国的朋友一起讨论,加深对传奇三国时代的了解数据分析基础概念:数据分为"不可测量"的数据和"可测量"的数据.不可测量的数据称为"分类数据"(Category Data或Categorical Data.),而可测量的数据称为"数值数据"(Numerical Data).组中值:Class Midpoint次数:Frequency相对次数

《BI那点儿事》数据挖掘初探

原文:<BI那点儿事>数据挖掘初探 什么是数据挖掘? 数据挖掘(Data Mining),又称信息发掘(Knowledge Discovery),是用自动或半自动化的方法在数据中找到潜在的,有价值的信息和规则. 数据挖掘技术来源于数据库,统计和人工智能. 数据挖掘能够做什么 对企业中产生的大量的数据进行分析,找出其中潜藏的规则更加清晰的了解目前的业务运行状况使得决策者把握未来的决策方向有了科学的依据预测销售额 向特定客户发送邮件 确定可能需要搭售的产品 查找客户将产品放入购物车的顺序序列 ..

《BI那点儿事》数据流转换——多播、Union All、合并、合并联接

原文:<BI那点儿事>数据流转换--多播.Union All.合并.合并联接 建立测试数据: CREATE TABLE FactResults ( Name VARCHAR(50) , Course VARCHAR(50) , Score INT ) INSERT INTO FactResults ( Name , Course , Score ) SELECT '张三' , '语文' , 90 UNION ALL SELECT '张三' , '数学' , 83 UNION ALL SELEC

《BI那点儿事》数据流转换——审核

原文:<BI那点儿事>数据流转换--审核 审核转换允许对数据流添加审核审核数据,以往使用HIPPA和Sarbanes-Oxley (SOX)时,必须跟踪谁在什么时插入数据,审核转换可以实现这种功能.例如要跟踪那一个task向表里插入数据,可以在审核转换中添加相应的列.在Output Column Name列中输入想要审核的列,在Audit Type内选择审核类型如图,可以选择的类型有: Execution Instance GUID:GUID标示是那一个package执行的插入操作 Packa

Blogger Hack:Meta Data优化

优化 Meta Data,这里指的是网页中<head></head>中间用来描述本页特性的一些信息.在Blogger系统中,因为模版可以完全定制,所以我们可以对Meta Data进行一些优化,从而提高Blog的兼容性及可读性,也让搜索引擎更方便抓取页面内容. 解决在Internet Explorer中不能自动识别UTF-8编码的问题: 在有些情况下,IE浏览器无法自动识别Blogger模版的编码格式,会显示空白页面,需要手动更改编码才能正常显示内容.解决的方法:只需要将以下的编码信

《BI那点儿事》Microsoft 逻辑回归算法——预测股票的涨跌

原文:<BI那点儿事>Microsoft 逻辑回归算法--预测股票的涨跌 数据准备:一组股票历史成交数据(股票代码:601106 中国一重),起止日期:2011-01-04至今,其中变量有"开盘"."最高"."最低"."收盘"."总手"."金额"."涨跌"等 UPDATE FactStock SET [涨跌] = N'涨' WHERE [涨幅] >

《BI那点儿事》SQL Server 2008体系架构

原文:<BI那点儿事>SQL Server 2008体系架构 Microsoft SQL Server是一个提供了联机事务处理.数据仓库.电子商务应用的数据库和数据分析的平台.体系架构是描述系统组成要素和要素之间关系的方式.Microsoft SQL Server系统的体系结构是对Microsoft SQL Server的主要组成部分和这些组成部分之间关系的描述.Microsoft SQL Server 2008系统由4个主要部分组成,这4个部分被称为4个服务,这些服务分别是数据库引擎.分析服

《BI那点儿事》数据流转换——字符映射表

原文:<BI那点儿事>数据流转换--字符映射表 特征映射转换如图展示数据流中列的特征,它的编辑界面很简单,只有一个标签界面,点击要进行映射的列,可以选择需要添加新列或需要更新的列.可以在Output Alias列中给原来的列一个别名,选择要进行的操作,可以进行的操作类型有: Byte Reversal:逆转数字位的顺序,例如数据0x1234 0x9876的逆转结果是0x4321 0x6789,这种操作和LCMapString,LCMAP_BYTEREV选项有相同的操作结果 Full Width