网站数据仓库的基本架构分析探讨

  数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、数据仓库、数据应用:

  

  从图中可以看出数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自上而下流入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管理的一个平台。

  数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL(抽取Extra, 转化Transfer, 装载Load)的过程,ETL是数据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢,而数据仓库日常的管理和维护工作的大部分精力就是保持ETL的正常和稳定。

  下面主要简单介绍下数据仓库架构中的各个模块,当然这里所介绍的数据仓库主要是指网站数据仓库。

  数据仓库的数据来源

  其实之前的一篇文章已经介绍过数据仓库各种源数据的类型——数据仓库的源数据类型,所以这里不再详细介绍。

  对于网站数据仓库而言,点击流日志是一块主要的数据来源,它是网站分析的基础数据;当然网站的数据库数据也并不可少,其记录这网站运营的数据及各种用户操作的结果,对于分析网站Outcome这类数据更加精准;其他是网站内外部可能产生的文档及其它各类对于公司决策有用的数据。

  数据仓库的数据存储

  源数据通过ETL的日常任务调度导出,并经过转换后以特性的形式存入数据仓库。其实这个过程一直有很大的争议,就是到底数据仓库需不需要储存细节数据,一方的观点是数据仓库面向分析,所以只要存储特定需求的多维分析模型;另一方的观点是数据仓库先要建立和维护细节数据,再根据需求聚合和处理细节数据生成特定的分析模型。我比较偏向后面一个观点:数据仓库并不需要储存所有的原始数据,但数据仓库需要储存细节数据,并且导入的数据必须经过整理和转换使其面向主题。简单地解释下:

  (1).为什么不需要所有原始数据?数据仓库面向分析处理,但是某些源数据对于分析而言没有价值或者其可能产生的价值远低于储存这些数据所需要的数据仓库的实现和性能上的成本。比如我们知道用户的省份、城市足够,至于用户究竟住哪里可能只是物流商关心的事,或者用户在博客的评论内容可能只是文本挖掘会有需要,但将这些冗长的评论文本存在数据仓库就得不偿失;

  (2).为什么要存细节数据?细节数据是必需的,数据仓库的分析需求会时刻变化,而有了细节数据就可以做到以不变应万变,但如果我们只存储根据某些需求搭建起来的数据模型,那么显然对于频繁变动的需求会手足无措;

  (3).为什么要面向主题?面向主题是数据仓库的第一特性,主要是指合理地组织数据以方面实现分析。对于源数据而言,其数据组织形式是多样的,像点击流的数据格式是未经优化的,前台数据库的数据是基于OLTP操作组织优化的,这些可能都不适合分析,而整理成面向主题的组织形式才是真正地利于分析的,比如将点击流日志整理成页面(Page)、访问(Visit或Session)、用户(Visitor)三个主题,这样可以明显提升分析的效率。

  数据仓库基于维护细节数据的基础上在对数据进行处理,使其真正地能够应用于分析。主要包括三个方面:

  数据的聚合

  这里的聚合数据指的是基于特定需求的简单聚合(基于多维数据的聚合体现在多维数据模型中),简单聚合可以是网站的总Pageviews、Visits、Unique Visitors等汇总数据,也可以是Avg. time on page、Avg. time on site等平均数据,这些数据可以直接地展示于报表上。

  多维数据模型

  多维数据模型提供了多角度多层次的分析应用,比如基于时间维、地域维等构建的销售星形模型、雪花模型,可以实现在各时间维度和地域维度的交叉查询,以及基于时间维和地域维的细分。所以多维数据模型的应用一般都是基于联机分析处理(Online Analytical Process, OLAP)的,而面向特定需求群体的数据集市也会基于多维数据模型进行构建。

  业务模型

  这里的业务模型指的是基于某些数据分析和决策支持而建立起来的数据模型,比如我之前介绍过的用户评价模型、关联推荐模型、RFM分析模型等,或者是决策支持的线性规划模型、库存模型等;同时,数据挖掘中前期数据的处理也可以在这里完成。

  数据仓库的数据应用

  之前的一篇文章——数据仓库的价值中介绍过数据仓库的四大特性上的价值体现,但数据仓库的价值远不止这样,而且其价值真正的体现是在数据仓库的数据应用上。图中罗列的几种应用并未包含所有,其实一切基于数据相关的扩展性应用都可以基于数据仓库来实现。

  报表展示

  报表几乎是每个数据仓库的必不可少的一类数据应用,将聚合数据和多维分析数据展示到报表,提供了最为简单和直观的数据。

  即席查询

  理论上数据仓库的所有数据(包括细节数据、聚合数据、多维数据和分析数据)都应该开放即席查询,即席查询提供了足够灵活的数据获取方式,用户可以根据自己的需要查询获取数据,并提供导出到Excel等外部文件的功能。

  数据分析

  数据分析大部分可以基于构建的业务模型展开,当然也可以使用聚合的数据进行趋势分析、比较分析、相关分析等,而多维数据模型提供了多维分析的数据基础;同时从细节数据中获取一些样本数据进行特定的分析也是较为常见的一种途径。

  数据挖掘

  数据挖掘用一些高级的算法可以让数据展现出各种令人惊讶的结果。数据挖掘可以基于数据仓库中已经构建起来的业务模型展开,但大多数时候数据挖掘会直接从细节数据上入手,而数据仓库为挖掘工具诸如SAS、SPSS等提供数据接口。

  元数据管理

  元数据(Meta Date),其实应该叫做解释性数据,即数据的数据。主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。

  最后做个Ending,数据仓库本身既不生产数据也不消费数据,只是作为一个中间平台集成化地存储数据;数据仓库实现的难度在于整体架构的构建及ETL的设计,这也是日常管理维护中的重头;而数据仓库的真正价值体现在于基于其的数据应用上,如果没有有效的数据应用也就失去了构建数据仓库的意义。

  » 本文采用 BY-NC-SA 协议,转载请注明来源:网站数据分析 » 《数据仓库的基本架构》

时间: 2024-10-04 20:05:18

网站数据仓库的基本架构分析探讨的相关文章

SQLSERVER数据仓库的构建与分析

server|sqlserver|数据     SQLSERVER数据仓库的构建与分析   (一)基本概念:     1.多维数据集:多维数据集是联机分析处理 (OLAP) 中的主要对象,是一项可对数据仓库中的数据进行快速访问的技术.多维数据集是一个数据集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结构.     2.维度:是多维数据集的结构性特性.它们是事实数据表中用来描述数据的分类的有组织层次结构(级别).这些分类和级别描述了一些相似的成员集合,用户将基于这些

数据仓库的基本架构

数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision-Support).其实数据仓库本身并不"生产"任何数据,同时自身也不需要"消费"任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫"仓库",而不叫"工厂"的原因.因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层--源数据.数据仓库.数据应用: 从图中可以看出数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数

国内三大B2C网站首页在信息架构上的一致和区别

文章描述:评国内三大B2C网站首页的信息架构. 随着电子商务的成熟,国内涌出了很多B2C网站,我经常访问的有:当当网.1号店.京东商城.易迅网.为为网和新蛋网等.这类网站很好的利用了计算机技术.互联网技术.即时通信技术和物流渠道,实现整个商务过程中的电子化.数字化和网络化,让不少用户得以不出户购天下物. 在访问这些网站的过程中,我发现其首页的信息架构拥有一些共同特点,也有各自的特色,遂以京东商城.新蛋网和易迅网为例,撰粗评一篇,拿来分享.行文难免有个人主观色彩,欢迎指正. 三大网站首页基本结构

国内三大B2C网站首页的信息架构

随着电子商务的成熟,国内涌出了很多B2C网站,我经常访问的有:当当网.1号店.京东商城.易迅网.为为网和新蛋网等.这类网站很好的利用了计算机技术.互联网技术.即时通信技术和物流渠道,实现整个商务过程中的电子化.数字化和网络化,让不少用户得以不出户购天下物. 在访问这些网站的过程中,我发现其首页的信息架构拥有一些共同特点,也有各自的特色,遂以京东商城.新蛋网和易迅网为例,撰粗评一篇,拿来分享.行文难免有个人主观色彩,欢迎指正. 三大网站首页基本结构 信息架构的主要目的是帮助用户找到他想要的东西,即

对医疗类网站的seo优化方法细致探讨

对医疗类网站的seo优化方法细致探讨 先让我们来梳理一下整个医疗网站seo优化流程:患者通过搜索关键字来到我们网站,然后进入首页.栏目页以及文章页,然后咨询,预约,到院,这个过程虽然很多,但我们优化能负责的就是如何让我们关键字有好的排名,从而让更多的用户访问我们网站,从而带来咨询,所以关键字排名成了我们优化最核心的东西. 其实优化关键字排名不是我们想的那么简单,因为现在百度不断更新排名算法,对我们医疗网站打击也最为严格,所以,目前医疗网站SEO优化相对来说,都比较难,小明觉得其原因无外乎就这么几

中秋节后我们应该如何对于网站进行全面seo优化分析

中秋节三天假期眨眼即逝,今天是上班的第一天了,笔者相信节日期间很多站长还是坚守阵地,但是据笔者所知绝大多数朋友,都放假休假休息了,也就是这几天网站几乎都处于停滞状态,笔者也是其一,早上过来一如既往的打开网站,就思索着写这样一篇文章,分享节后我们究竟应该对于网站哪些数据进行有效的分析,好了,闲话短续我们进入正题. 第一,分析网站的关键词排名情况.一般这个是很多seoer每天可能必做的工作,但是节后我们更要绷紧这根玄,我们需要分析的是自己所负责网站的核心词在各个搜索引擎的排名情况,辅助关键词的排名情

搜索引擎判断网站是否作弊的原理分析(三)

广州SEO陈永继续为大家讲解搜索引擎判断网站如何判断网站是否作弊的原理,上节讲解完TrustRank算法,这一节将详细讲解BadRank算法. BadRank据传是Google采用的反链接作弊算法.它是一种典型的不信任传播模型,即首先构建作弊网页集合,之后利用链接关系来讲这种不信任分值传递到其他网页. BadRank包含的基本假设是:如果一个网页将其链接指向作弊页面,则这个网页也很可能是作弊网页:而如果一个网页被作弊网页指向,则不能说明这个网页是有问题的,因为作弊网页也经常将其链接指向一些知名网

搜索引擎判断网站是否作弊的原理分析(二)

承接搜索引擎判断网站是否作弊的原理分析(一) 广州SEO陈永继续为大家分析信任传播模型.不信任传播模型及异常发现模型3个代表算法,它们分别是TrustRank算法.BadRank算法和SpamRank算法. 我们先详细介绍TrustRank算法 TrustRank算法属于信任传播模型,基本遵循信任传播模型的流程,即算法流程如下两个步骤组成. 步骤一:确定值得信任的网页集合 TrustRank算法需要靠人工审核来判断某个网页应该被放入网页集合,考虑到人工审核工作量大,所以提出了两种初选信任网页集合

论网站SEO前的竞争对手分析

  东莞潮汐SEO是一个直爽的人,喜欢开门见山.今天来给大家分析SEO的一点小知识.论网站SEO前的竞争对手分析.在我们进行完关键词挖掘.分析和选定之后,接下来就要进行竞争对手的分析了. 为什么要写这样一篇文章呢?因为看到了一份朋友写的SEO方案.因为我之前给了他一个大致的提纲,所以,写得基本上还行.只是在竞争对手分析这一个方面,东莞潮汐SEO觉得有必要来纠正一下,故写此文并分享出来,希望对广大的SEO朋友们有所帮助.那么,竞争对手的分析需要包括哪些方面呢? 一.域名年龄 搜索引擎会对部份运行年