目前,卷烟工业企业以信息化带动工业化,信息技术向企业全面渗透,运用于各个流程,支持产品设计、生产、管理和运营的各个环节。通过“行业卷烟生产经营决策管理系统”平台,实现了卷烟计划取码和物流数码跟踪,以及生产打码、销售扫码的实物数据日报和工商数据采集。卷烟工业企业积累了大量的运营管理数据,但分散存储在不同的应用系统中,因此,传统的数据库应用系统已不能很好地支持决策,企业需要新的技术来弥补原有数据库系统的不足。数据仓库技术能跨越多个应用系统,集成、转换和汇总所需要的数据,表达完整的数据视图,并通过OLAP(Online Analytical Processing,联机分析处理)技术提供各种数据分析手段。
1 数据仓库体系结构组成
数据仓库以数据库为基础,但不是简单的多个数据库的集合。在业务系统中常用的数据库是操作型数据库,其数据组织主要是面向事务处理任务,即面向具体业务。与传统的操作型数据库比较,数据仓库的主要目的是支持分析决策,因此数据仓库中的数据是按照一定的主题进行组织的,这些数据常常会涉及多种业务或多个业务环节。所谓主题,是指一个较高管理层次意义上的数据综合、归类对象,它是与传统数据库面向应用相对应的。每一个主题基本对应于某一特定的分析领域,如生产、销售、客户等。数据仓库中的数据来源于操作型数据库和其他外部数据源,经过加工和集成加载到数据仓库中。
数据仓库的体系结构通常包含4个层次:数据源、数据的存储与管理、数据访问服务、数据展现分析(见图1)。
图1 数据仓库体系结构
1.1 数据源
数据源是数据仓库的数据源泉,不仅包括企业内部生产运营系统中的数据,也包括企业外部的市场信息、行业信息、经济信息等数据,以及各种文档资料。
1.2 数据的存储与管理
数据仓库通过ODBC(Open Database Connectivity,开放数据库连接)、JDBC(Java Database Connectivity,JAVA数据库连接)等数据库连接机制,或专用ETL(Extract Transform Load)工具连接各种数据源。这些数据经过抽取、清洗、转换和装载,按照主题重新组织,依照相应的存储结构存放在数据仓库中。也可以针对一些特定业务的主题建立数据集市,数据集市可以看作是数据仓库的一个子集,它含有较少的主题域,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。
1.3 数据访问服务
为前端工具数据仓库中的数据进行复杂查询和多维分析处理提供系统后台支持。对分析的数据进行有效集成,按多维模型进行组织,提供联机分析处理(OLAP)服务。多维数据模型在物理实现时主要有3种方式:ROLAP结构(Relational OLAP,基于关系型数据库的OLAP实现)、MOLAP结构(Multi-dimension OLAP,基于多维数据库的OLAP实现)和HOLAP结构(Hybrid OLAP,基于混合数据组织的OLAP实现)。
1.4 数据展现分析
数据展现分析部分位于最顶层,是最终用户使用数据的窗口。数据建模、数据抽取对于最终用户是透明的,但却是数据展现分析的基础。数据展现分析工具的优劣直接影响着最终用户对数据仓库的应用及推广。
2 数据仓库数据建模
数据仓库的设计与联机事务处理(OLTP,On-Line Transaction Processing)系统的设计一样,需要先进行模型设计。数据建模是数据仓库开发过程中的关键步骤,包括概念模型、逻辑模型和物理模型设计(图2)。
图2 数据仓库数据建模过程
元数据是描述数据仓库内数据的结构和建立方法的数据,是关于数据的数据,通过元数据可以有效地利用数据仓库。数据粒度问题是设计数据仓库的一个重要方面,粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。在数据仓库中数据量大小与查询的详细程度之间要进行权衡。
3 卷烟工业企业数据仓库架构设计
目前卷烟工业企业大都开发了营销、生产、财务、原辅料、零配件、质量、设备、工艺、人力资源、办公自动化等管理信息系统,积累了大量的信息资源,因此,只有对这些数据进行合理的组织和有效分析才能提炼出有用信息。根据卷烟工业企业目前状况,宜建立与业务管理信息系统相分离的数据仓库应用系统,其最佳方式就是构建企业级数据仓库,发掘企业各种业务数据的价值,避免复投资建设,避免决策支持信息孤岛的产生。卷烟工业企业数据仓库逻辑架构设计见图3。
图3 卷烟工业企业数据仓库架构
在上述系统架构中,ETL服务器、数据仓库服务器、数据集市服务器、报表数据展现服务器均为逻辑服务器。是否采用独立的物理服务器,要根据企业具体需求、数据安全性要求和数据仓库应用的不同阶段进行考虑。该系统架构能够稳定而灵活地适应卷烟工业企业当前不断变化的管理需要,以及信息化规模和信息资源管理迅速发展的要求。各业务部门可以从不同的业务视角共享企业一致的数据,以统一的数据存储模型逐步集成各类业务数据,保证系统前期投入的可持续利用和系统的不断拓展。星型模型是数据模型设计的常用方式,大型企业数据仓库的主维度模型大约包括10~25个星型模型,每个星型模型通常连接5~15个维表。在进行设计时,不同事实表之间共享其中的许多维表。
4 卷烟工业企业数据仓库的构建
红塔集团公司采用SAPR3系统建立了企业的ERP平台,相继实施了生产计划与控制、物料管理、销售与分销、财务会计、成本控制、设备管理、质量管理、项目管理、预算管理等模块,积累了大量的详细的业务数据。根据集团公司管理需要,建立了企业级数据仓库BW(Busines information Warehouse,业务信息仓库)系统(图4),BW系统的应用服务器和数据库服务器布置在一台高性能的IBM RS/6000主机上。客户端提供有内嵌EXCEL报表的业务浏览器、WEB浏览器和管理员工作台模式。管理员工作台是系统的中央控制点,通过系统管理员对系统进行监控和管理。源系统包括集团公司的ERP平台SAP R3系统,以及其他非SAP的应用信息系统,或文本文件。该系统目前没有采用专门的ETL服务器,而是通过数据仓库服务器中的分段传输引擎,对采集数据进行筛选、清洗、转换、汇总和加载,系统也可采用其他专门的ETL工具进行数据抽取;前端工具采用两种方式访问数据仓库中的数据,即业务浏览器和WEB浏览器,支持这两种方式的报表数据展现服务集成在BW服务器内。随着应用的深入,集团公司准备建立独立的报表数据展现平台以提高数据展现和分析能力;多维数据立方体infocube和操作数据存储ODS是BW数据仓库的重要组成部分,其中多维数据立方体infocube是数据仓库中的逻辑数据集市,因此系统没有采用独立的数据集市服务器;BW服务器中内嵌了OLAP处理器,可以从数据库中检索数据,根据用户的请求进行数据分析并以直观的方式显示数据,实现数据钻取、数据切片等功能。
图4 某卷烟集团公司的数据仓库BW系统示意图
数据仓库建模设计时,根据实际管理需求,通过对业务数据进行整理和重新组织,形成各种数据维度模型。其中企业制造成本考核的数据模型如图5所示,是一种扩展的星型模型。该模型的数据更新周期为1周,数据的时间粒度为日。集团公司通过数据仓库BW系统提供的信息,实现对生产部门制造成本的动态分析,每月对生产部门进行成本考核,以控制和降低成本。
图5 企业制造成本考核数据模型
5 结 语
在搭建企业级数据仓库时,要结合企业自身实际情况,灵活运用上述构建方法,充分了解和分析前台业务处理系统和应用,为各种分析应用提供统一的、整合的数据基础,保证企业不同业务部门从不同的视角都可以共享企业的数据,充分发挥数据的价值和作用。