引言
随着我国金融业的飞速发展,银行如何通过对客户数据的归类存储、对各种要素的自动判别分析,从业己存在的、大量的数据中挖掘出银行经营管理人员、业务分析人员所需要的信息,以支持决策分析是一个迫切需要解决的问题。由于当前绝大多数企业内数据的真正状况是分散而非集成的,数据不一致问题、外部数据和非结构化数据问题都难以解决。
数据仓库正是随着关系数据库、并行处理和分布式技术的飞速发展而提出的解决使用数据的一种新技术、新概念,它是目前已知的最为广泛采用的解决方案。它不是对传统数据库的替代,而是在传统数据库的基础上对数据进行重新组织。利用数据仓库整和金融企业内部所有分散的原始的业务数据,并通过便捷有效的数据访问手段,可以支持企业内部不同部门,不同需求,不同层次的用户随时获得自己所需的信息,并能将网络中分布的商业数据集成到一起,为决策者提供各种类型的数据分析。
1 数据仓库的定义及特征
数据仓库的概念是为企业能有效地管理和利用多年来积累下来的各种历史数据和统计信息,服务于决策支持背景下提出来的。数据仓库之父W.H.Inmon在《建立数据仓库》一书中提出:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程[1]。这个定义所陈述的是一种设计方法,它偏重于对数据本身特点和数据模型特点的描述,主要是针对解决数据“易进不易出”的问题。
数据仓库将不同介质、不同组织方式的数据集成转换而成为一个一致的分析型数据环境,为不同来源的数据提供了一致的数据视图[2]。它的最大优点在于它能把企业网络中不同信息岛上的数据集中到一起,存储在一个单一的集成的数据库中,并提供各种手段对数据进行统计、分析,并且允许企业的各个部门共享数据,为企业更快、更好地做出决策提供更加准确、完整的信息。
面向主题性是数据仓库中数据组织的基本原则,数据仓库中的所有数据都是围绕着某一主题组织、展开的。数据仓库中存贮的数据是从原来分散的各个子系统中提取出来的,但并不是原有数据的简单拷贝,而是经过统一、综合的。数据仓库在一定时间间隔内是稳定的,其中数据随时间变化而定期地被更新。