一、大规模定制客户智能">数据仓库技术
1、数据的抽取。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量,转换、调度和监控等几个方面。
2、数据的存储和管理。数据仓库遇到的第一个问题是对大量数据的存储和管理。这里所涉及的数据量比传统事务处理大得多且随时间的推移而累积。数据仓库的组织管理方式决定了它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。要决定采用什么产品和技术来建立数据仓库核心,则需要从数据仓库的技术特点着手分析。从当今的技术发展来看,面向决策支持扩充的并行关系数据库将是数据仓库的核心。
3、数据的表现。实际的应用中,客户需要通过对数据的统计来验证他们对某些事物的假设,以进行决策。与数理统计相似,数据挖掘与数据仓库也没有直接的联系,而且这个概念在现实中有些含混。数据挖掘强调的不仅仅是验证人们对数据特性的假设,而且它更要主动地寻找并发现蕴藏在数据之中的规律。市场上许多数据挖掘工具并不是真正寻找出数据的规律,而是验证尽可能多的假设,最后由人来判断其合理性。因此在当前的数据仓库应用中有效地利用数理统计就已经能够获得可观的效益。
二、客户数据仓库模型设计
1、数据结构图。星型和雪花结构是在数据仓库中最为广泛的数据结构,它们的主要优点是能提供多维的模式,并能实现对数据的快速查询和连接。星型结构是非范式、以查询为中心的模型,这种模型的最大优点是能够提供所谓的星连接,通过一步连接就可以获取大部分所需要的信息,并能很快得到输出结果,这种模型里信息可分为两大类:事实表和维表。
2、概念模型设计。概念模型设计是建立数据仓库的第一步,是主客观之间的一个桥梁,是客观世界到机器世界的一个中间层次。描述概念模型最常用的方法是E-R图法,运用E-R图可以清晰的表示客户、订单和产品之间的关系。
3、数据结构图。星型和雪花结构是在数据仓库中应用最为广泛的数据结构,它们的主要优点是能够提供多为的模式,并能实现对数据的快速查询和连接。星型结构势非范式的,以查询为中心的模型,这种模型的最大优点是能够提供所谓的星连接,通过一步连接就可以获取大部分所需要的信息,并能很快得到输出结果,这种模型里信息可分为两大类:事实表和维表。
4、逻辑数据模型设计。逻辑模型式通用化的数据模型它的典型产品是实体关系图,用于描述现实世界中实体和实体间的关系。
(1)客户数据。少量的客户数据不足以提供有关客户偏好和消费的真实、实时的信息。从客户数据的来源来看,客户数据有一部分可以从企业现有的操作型系统获取,如ERP、SCM、HR系统但这对有效的客户智能实现是远远不够的。大多客户知识的发现需要集成至少5年甚至更长时间的客户数据。因此,能对客户智能起到全面支持作用的数据环境必须包括集成的客户数据和该客户的历史数据。
(2)产品数据。产品数据包括下面几个方面:产品类别信息:包括类别ID和名称;产品价格信息:产品ID、单价等;产品材料信息:材料ID、名称;供应商信息:供应商ID、名称、供应价、供应日期。
(3)订单信息数据。订单信息包括下面几个方面:订单固有信息:包括订单ID、日期等;客户信息:包括客户ID、名称等;产品信息:包括产品名称、设计属性等。
5、数据仓库的物理设计
(1)表空间设计。表空间设计主要是为了把逻辑意义的区分开,也为性能考虑,所以可以在表名前加前缀作为区分表所在的区。
(2)归档设计。由于数据在数据仓库中的频繁加载、删除,以及插入的操作,如果选用归档模式会使数据仓库产生大量日志。如果归档将严重影响性能,而且数据仓库对数据恢复的要求不高,所以采用非归档模式。
(3)安全性设计。数据库中所有法人用任务表全部放在一个用户下,以方便在各个区之间加载转换,再建一个用户用于展现,对所有的业务表只有只读权限。
(4)参数设计。由于数据仓库经常删除、插入,很少更新的特点,相对一般业务系统,加大块的大小,增加preused和减少prefree。
(5)备份恢复。这里采用每2天一次冷备份和一周一次逻辑备份。可以接受恢复两天前的数据,然后通过ETL重新从源数据库中获取最新数据。