本文描述了关键参考数据概念、">数据模型概述和高层次架构,详细介绍了一个创建参考数据集和映射的场景,就如何将参考数据导出和分发到外部系统提供了一些初步见解。
简介
尽管企业 MDM 系统本身注重主数据管理,不过有一种称为参考数据的特殊类型可用来定义所捕获的主数据实体的各个方面(比如允许某个属性使用的值的范围)。参考数据的示例包括状态代码集、员工类型、州/省/国家代码、账簿代号等。由每个属性的一系列允许值组成的这种参考数据集通常位于一些专用表中,比如查找表、代码表、检查表或域表。
参考数据与元数据和主数据有所不同。首先,元数据描述了一个实体的结构,而参考数据仅描述实体属性的一系列允许值。与主数据相比,参考数据随时间的推移变化得不那么频繁。此外,参考数据往往在行(或实例)级有语义含义,而主数据有实体级语义。最后,参考数据语义更能会随时间而发生变化。例如,与数据仓库(存储过去十年的记录)中一个实体相关的组织代码可能是指兼并前或兼并后的组织。
参考数据代码在以下领域得到了应用:控制数据库列的允许值,相关实体的分类,执行域查询,或将受控的术语词汇表与其有效范围相关联。
尽管在由各个操作系统和应用程序使用之前,往往会将企业参考数据标准化,但在不同的孤立应用程序之间,表示法或语义通常是不同的。这一语义差别是无法避免的,因为应用程序通常需要其本地表示法才能提高处理效率。例如,在图 1 中,Source 和 Target 中的列 C2 表示国家代码集,这是一种参考数据。但是,经观察发现,源表和目标表对同样的国家代码有不同的表示法。
图 1. 国家代码的不同表示法
鉴于这个原因,在执行数据集成或分发之前(将数据从源系统迁移到目标系统),需要将源系统中的表示转换为目标系统能理解的表示。这一过程称为参考数据转码,是主数据集成和分发管道中的在一个重要步骤。
这一通用场景激发了一组需求,任何全面参考数据管理解决方案都应基于这组需求。下一节将探究一个参考数据管理系统的高级模型。
参考数据逻辑模型
一个参考数据管理系统有一组关键实体,帮助管理总体参考数据生命周期。图 2 显示了这些关键实体及其高层关系。这一节将详细介绍这些实体和相关概念。
图 2. 参考数据逻辑模型
托管实体
一个托管实体是一个抽象实体蓝图,该抽象实体包含足够的必要信息(属性),以便管理对其进行扩展的任何实体的生命周期。
这些属性包含名称和/或描述、所有者、版本、生命周期状态、时间戳(有效、过期、审核等)和类型。前面的图 2 显示的模型中的实体(数据集、映射集、层次结构)都共享了托管实体定义的常见属性,如图 3 所示。
图 3. 托管实体